استخدام الذكاء الاصطناعي لاستنساخ نفسه للاحتيال على البنوك

[إعلان 1]

حاولت مراسلة صحيفة وول ستريت جورنال، جوانا ستيرن، استخدام الذكاء الاصطناعي لإنشاء نسخة مزيفة من نفسها، مما خدع عائلتها والنظام المصرفي.

استخدام الذكاء الاصطناعي لإدخال الوجوه في الفيديوهات أو الأصوات المزيفة، المعروف باسم "التزييف العميق"، يزداد شيوعًا وخطورة. وهذا خطر حقيقي على الإنترنت.

بالإضافة إلى الفيديوهات الحساسة، قد تُسبب تقنية التزييف العميق أضرارًا جسيمة إذا استُخدمت لأغراض سياسية . أظهر مقطع فيديو لوجه الرئيس الأمريكي السابق باراك أوباما وهو يُشوّه، والذي انتشر على نطاق واسع عام ٢٠١٨، أن الشخصيات السياسية البارزة قد تصبح أيضًا ضحايا.

أصبحت المواد الإباحية المزيفة مشكلة عالمية. الصورة: Wired.

لاختبار فعالية الذكاء الاصطناعي، استخدمت جوانا ستيرن، مراسلة صحيفة وول ستريت جورنال ، برنامج سينثيسيا، وهو أداة تزييف عميق، لإنشاء نسخة محاكاة لنفسها. وكانت النتيجة أن النسخة المستنسخة خدعت عائلتها والنظام المصرفي.

نسخة مثالية

وفي حديثها عن رحلتها لاستنساخ نفسها، قالت ستيرن إنها قضت أشهرًا في تجربة Synthesia وتدريب الذكاء الاصطناعي من مقاطع الفيديو والملفات الصوتية الأصلية الخاصة بها.

كما أن استخدام هذه الأداة بسيط للغاية عندما يحتاج المستخدمون فقط إلى إدخال أي نص وسيتلقون مقطع فيديو جديدًا بصوتهم يتحدث عن هذا المحتوى.

وقال ستيرن: "نظرًا لطبيعة عملي، الذي يتطلب الكثير من العمل مع الحوار وعلى الشاشة، اعتقدت أن الذكاء الاصطناعي يمكن أن يساعدني في أن أكون أكثر كفاءة ويخفف بعض العمل الشاق منه".

جوانا ستيرن تُسجّل صوتها لتدريب الذكاء الاصطناعي في سينثيسيا. الصورة: وول ستريت جورنال.

لتدريب الأداة، ذهبت مراسلة صحيفة وول ستريت جورنال إلى استوديو تسجيل، وأمضت حوالي 30 دقيقة في تصوير نفسها وساعتين في تسجيل صوتها. وفي غضون أسابيع قليلة، أصبحت نسخة ستيرن الافتراضية، التي أطلقت عليها اسم جوانا إيه آي، جاهزة للقيام بعملها.

استغل ستيرن يوم إجازته لتشغيل جوانا إيه آي. في مهمته الأولى، استخدم مراسل وول ستريت جورنال برنامج ChatGPT لكتابة نص فيديو على تيك توك حول نصائح حول نظام iOS.

ثم ألصقت ستيرن النص في سينثيسيا. بعد التهيئة، سُمع صوتها فوق الفيديو. وعلّق المراسل: "كان الأمر أشبه بانعكاسي في المرآة، مع أن حركات اليد وتعابير الوجه كانت مختلفة قليلاً. كان الأمر مقنعًا للغاية".

وقال ستيرن إن جوانا إيه آي تتمتع بقدرات محاكاة مثيرة للإعجاب للجمل القصيرة، لكن نقاط ضعفها تصبح واضحة عندما تصبح الجمل أطول.

لهذا السبب أيضًا، تُعدّ منصات الفيديوهات القصيرة البيئات الأنسب للذكاء الاصطناعي، وفقًا لستيرن. ووفقًا لها، غالبًا ما يُولي المستخدمون اهتمامًا أقل للتفاصيل في فيديوهات تيك توك، مما يُسهّل إغفال الميزات الشبيهة بالحواسيب.

لإجراء مكالمات هاتفية، يستخدم ستيرن تطبيق ذكاء اصطناعي آخر يُسمى ElevenLabs بدلًا من Synthesia. يتميز هذا البرنامج الصوتي المدعم بالذكاء الاصطناعي بميزة تحميل المستخدمين ملفاتهم الصوتية إليه بسهولة دون الحاجة للذهاب إلى استوديو تسجيل.

قال ستيرن إن جوانا إيه آي تتمتع بقدرات محاكاة مبهرة للجمل القصيرة. الصورة: وول ستريت جورنال.

فوجئت مراسلة صحيفة وول ستريت جورنال عندما تمكنت شركة ElevenLabs من استنساخ صوتها في دقيقتين فقط. والجدير بالذكر أن رسوم استخدام هذا التطبيق تبلغ حوالي 5 دولارات أمريكية شهريًا فقط.

وبالمقارنة مع Synthesia، علق ستيرن أن صوته المستنسخ على ElevenLabs بدا أكثر إنسانية، مع تجويد ونطق جيدين.

لاختبار مصداقيته، حاول المراسل استخدام الصوت للتحدث مع أحد أقاربه. قالت شقيقة ستيرن إن صوت الذكاء الاصطناعي كان يشبهها كثيرًا، إلا أنه لم يتوقف لالتقاط أنفاسه.

وفي هذه الأثناء، عندما استخدم ستيرن صوت الذكاء الاصطناعي للاتصال بوالده وطلب رقم الضمان الاجتماعي الخاص به، أدرك على الفور أن هناك خطأ ما لأنه بدا وكأنه ملف صوتي مسجل.

خداع البنك

والأمر الأكثر أهمية هو أن الذكاء الاصطناعي كان فعالاً للغاية لدرجة أنه تمكن من خداع نظام القياسات الحيوية الصوتي على بطاقة الائتمان تشيس الخاصة بستيرن.

طرح مراسل وول ستريت جورنال أولاً على جوانا آي بعض الأسئلة التي سيطرحها تشيس. ثم اتصلت بخدمة العملاء وتركت الذكاء الاصطناعي يجيب.

كان الذكاء الاصطناعي فعّالاً لدرجة أنه خدع نظام القياسات الحيوية الصوتي على بطاقة ائتمان ستيرن تشيس. الصورة: وول ستريت جورنال.

في مرحلة البيانات الحيوية، عندما طلب النظام الآلي اسمها وعنوانها، ردّت جوانا رسميًا. بمجرد سماعها صوت الذكاء الاصطناعي، تعرّف نظام تشيس عليه فورًا بأنه ستيرن، وربطها بممثل البنك.

بعد الاختبار الناجح، اتصل ستيرن بتشيس مباشرة ليقول له إنه ليس لديه أي تعاملات مع البنك.

وقال متحدث باسم تشيس في وقت لاحق إن البنك يستخدم القياسات الحيوية الصوتية، إلى جانب أدوات أخرى، للتحقق من هوية المتصلين.

وأضاف تشيس أن الميزة تهدف إلى مساعدة العملاء على تحديد هويتهم بسرعة وأمان، ولكن سيحتاج العملاء إلى تقديم معلومات إضافية لاستكمال المعاملات والطلبات المالية الأخرى.

لكن الأمر الأكثر إثارة للقلق هو أن تطبيقات مثل ElevenLabs أنتجت نسخًا جيدة جدًا دون عناء يُذكر. فكل ما على المستخدمين فعله هو الموافقة على سياسة المسؤولية، ويمكنهم رفع الملفات الصوتية وإنشاء نسخ خاصة بهم.

بعد اختبار صحيفة وول ستريت جورنال ، أعلنت شركة إليفن لابس أنها ستحظر الحسابات التي يبدو أنها تُنشئ محتوى احتياليًا أو غير قانوني. كما تعمل الشركة الناشئة على تطوير أداة تصنيف بالذكاء الاصطناعي لمقاطع الفيديو المُنشأة على منصتها.

وفي الوقت نفسه، تتطلب شركة Synthesia من المستخدمين الموافقة شفهيًا على ملفات الصوت والفيديو، وهذا هو السبب الذي جعل ستيرن يذهب إلى الاستوديو لتصوير وتسجيل البث المباشر مع الشركة.

استخدام سينثيسيا بسيط: عند إدخال أي نص، سيتلقى المستخدم فيديو جديدًا بصوته يتحدث عن هذا المحتوى. الصورة: وول ستريت جورنال.

وبحسب سيوبان جونسون، المتحدثة باسم مكتب التحقيقات الفيدرالي (FBI)، خسرت العائلات في الولايات المتحدة في المتوسط حوالي 11 ألف دولار لكل مكالمة احتيال.

في عام 2022، أظهرت بيانات لجنة التجارة الفيدرالية الأمريكية (FTC) أن الأمريكيين خسروا ما مجموعه 2.6 مليار دولار بسبب مكالمات الاحتيال.

لقد سمح تطوير برامج الذكاء الاصطناعي الرخيصة وسهلة الوصول للمحتالين باستنساخ الأصوات بحرية وإنشاء محادثات تبدو تمامًا مثل المحادثات الأصلية.

هذا التهديد ليس مجرد افتراض. نرى محتالين يستغلون هذه الأدوات كسلاح. يمكنهم إنشاء نسخة صوتية جيدة نسبيًا بأقل من دقيقة. بالنسبة للبعض، حتى بضع ثوانٍ كافية، كما قال هاني فريد، أستاذ علوم الحاسوب بجامعة كاليفورنيا، بيركلي.

[إعلان 2]
رابط المصدر