โจแอนนา สเติร์น ผู้สื่อข่าวของ WSJ พยายามใช้ AI เพื่อสร้างเวอร์ชันปลอมของตัวเองเพื่อหลอกทั้งครอบครัวของเธอและระบบธนาคาร
การใช้ปัญญาประดิษฐ์เพื่อแทรกใบหน้าลงใน วิดีโอ หรือเสียงปลอม ซึ่งเรียกกันทั่วไปว่า deepfakes กำลังแพร่หลายและเป็นอันตรายมากขึ้น ซึ่งถือเป็นอันตรายอย่างแท้จริงบนอินเทอร์เน็ต
นอกจากวิดีโอที่มีความละเอียดอ่อนแล้ว Deepfake ยังสามารถสร้างอันตรายร้ายแรงได้หากนำไปใช้เพื่อจุดประสงค์ ทางการเมือง วิดีโอที่ใบหน้าของอดีตประธานาธิบดีบารัค โอบามา ถูกแปลงโฉม ซึ่งกลายเป็นกระแสไวรัลในปี 2018 แสดงให้เห็นว่าบุคคลสำคัญทางการเมืองก็อาจตกเป็นเหยื่อได้เช่นกัน
Deepfake porn กำลังกลายเป็นปัญหาระดับโลก ภาพ: Wired |
เพื่อทดสอบประสิทธิภาพของ AI โจแอนนา สเติร์น ผู้สื่อข่าว ของ WSJ ได้ใช้ Synthesia ซึ่งเป็นเครื่องมือ deepfake เพื่อสร้างเวอร์ชันจำลองของตัวเอง ผลลัพธ์ก็คือโคลนดังกล่าวสามารถหลอกทั้งครอบครัวของเธอและระบบธนาคารได้
สำเนาที่สมบูรณ์แบบ
สเติร์นเล่าถึงการเดินทางของเธอในการโคลนตัวเองว่าเธอใช้เวลาหลายเดือนในการทดลองกับ Synthesia และฝึกฝน AI จากวิดีโอและไฟล์เสียงต้นฉบับของเธอ
การใช้เครื่องมือนี้ยังง่ายมากเช่นกัน เมื่อผู้ใช้เพียงป้อนข้อความใดๆ ก็ได้ แล้วจะได้รับวิดีโอใหม่พร้อมเสียงที่พูดเกี่ยวกับเนื้อหานั้น
“เนื่องจากลักษณะงานของฉันที่ต้องทำงานกับบทสนทนาและหน้าจอเป็นจำนวนมาก ฉันจึงคิดว่า AI อาจช่วยให้ฉันทำงานได้อย่างมีประสิทธิภาพมากขึ้นและแบ่งเบาภาระงานหนักๆ ออกไปได้” สเติร์นกล่าว
Joanna Stern กำลังบันทึกเสียงของเธอเพื่อฝึก AI ของ Synthesia รูปภาพ: WSJ |
เพื่อฝึกเครื่องมือนี้ นักข่าว ของ WSJ ได้ไปที่สตูดิโอบันทึกเสียงและใช้เวลาประมาณ 30 นาทีในการถ่ายทำตัวเอง และอีก 2 ชั่วโมงในการบันทึกเสียง ภายในเวลาไม่กี่สัปดาห์ เวอร์ชันเสมือนจริงของสเติร์นซึ่งเธอตั้งชื่อว่า Joanna AI ก็พร้อมที่จะทำงานของเธอแล้ว
สเติร์นใช้เวลาพักร้อนของเขาเพื่อนำ Joanna AI มาใช้ ในงานแรกของเขา ผู้สื่อข่าว ของ WSJ ใช้ ChatGPT ในการเขียนสคริปต์สำหรับวิดีโอ TikTok เกี่ยวกับเคล็ดลับเกี่ยวกับ iOS
จากนั้นสเติร์นก็วางข้อความลงใน Synthesia หลังจากเริ่มต้นใช้งาน เสียงของเธอจะดังขึ้นเหนือวิดีโอ “มันเหมือนกับการมองภาพสะท้อนของตัวเองในกระจก แม้ว่าท่าทางมือและการแสดงออกทางสีหน้าจะแตกต่างกันเล็กน้อยก็ตาม มันดูน่าเชื่อถือมาก” นักข่าวแสดงความคิดเห็น
สเติร์นกล่าวว่า Joanna AI มีความสามารถในการเลียนแบบประโยคสั้นๆ ได้อย่างน่าประทับใจ แต่จุดอ่อนของมันจะปรากฏชัดเจนเมื่อประโยคยาวขึ้น
นั่นเป็นเหตุผลว่าทำไมแพลตฟอร์มวิดีโอสั้นจึงเป็นสภาพแวดล้อมที่เหมาะสมที่สุดสำหรับ AI สเติร์นกล่าว ตามที่เธอกล่าว ผู้ใช้มักให้ความสนใจกับรายละเอียดในวิดีโอ TikTok น้อยลง ทำให้ฟีเจอร์ที่คล้ายกับคอมพิวเตอร์มองข้ามได้ง่าย
สำหรับการโทรศัพท์ Stern ใช้แอป AI อีกแอปหนึ่งที่ชื่อว่า ElevenLabs แทนที่จะเป็น Synthesia ซอฟต์แวร์เสียง AI นี้มีข้อดีคือผู้ใช้เพียงแค่อัปโหลดไฟล์เสียงของตนไปยังเครื่องมือโดยไม่ต้องไปที่สตูดิโอบันทึกเสียง
สเติร์นกล่าวว่า Joanna AI มีความสามารถในการเลียนแบบประโยคสั้นๆ ได้อย่างน่าประทับใจ ภาพ: WSJ |
นักข่าว ของ WSJ ประหลาดใจเมื่อ ElevenLabs สามารถโคลนเสียงของเธอได้ภายในเวลาเพียง 2 นาที โดยเฉพาะอย่างยิ่งค่าธรรมเนียมในการใช้แอปพลิเคชันนี้อยู่ที่ประมาณ 5 ดอลลาร์ ต่อเดือนเท่านั้น
เมื่อเปรียบเทียบกับ Synthesia สเติร์นแสดงความเห็นว่าเสียงที่โคลนของเขาใน ElevenLabs ฟังดูเป็นมนุษย์มากกว่า โดยมีการเรียบเรียงเสียงและการออกเสียงที่ดี
เพื่อทดสอบความน่าเชื่อถือ นักข่าวจึงลองใช้เสียงนั้นพูดคุยกับญาติ น้องสาวของสเติร์นบอกว่าเสียงของ AI นั้นฟังดูเหมือนเธอมาก เพียงแต่มันไม่หยุดหายใจ
ในขณะเดียวกัน เมื่อสเติร์นใช้เสียง AI โทรหาพ่อของเขาเพื่อขอหมายเลขประกันสังคม เขารู้ทันทีว่ามีบางอย่างผิดปกติ เพราะมันฟังดูเหมือนไฟล์เสียงที่บันทึกไว้
หลอกธนาคาร
ที่น่าสังเกตมากที่สุดคือ AI นั้นมีประสิทธิผลมากจนสามารถหลอกระบบไบโอเมตริกซ์เสียงบนบัตรเครดิต Chase ของ Stern ได้
นักข่าว ของ WSJ ถามคำถามกับ Joanna AI สองสามข้อ จากนั้น Chase ก็โทรไปที่ฝ่ายบริการลูกค้าและให้ AI ตอบ
AI มีประสิทธิภาพมากถึงขนาดสามารถหลอกระบบไบโอเมตริกซ์เสียงบนบัตรเครดิต Chase ของ Stern ได้ ภาพ: WSJ |
เมื่อถึงขั้นตอนไบโอเมตริกซ์ ระบบอัตโนมัติจะถามชื่อและที่อยู่ของเธอ ระบบ AI ของ Joanna จะตอบกลับอย่างเป็นทางการ ทันทีที่เธอได้ยินเสียงของ AI ระบบของ Chase จะจดจำทันทีว่าเป็นเสียงของ Stern และเชื่อมต่อเธอกับตัวแทนธนาคาร
หลังจากการทดสอบประสบความสำเร็จ สเติร์นได้ติดต่อเชสโดยตรงเพื่อแจ้งว่าเขาไม่ได้มีส่วนเกี่ยวข้องใดๆ กับธนาคาร
โฆษกของ Chase กล่าวว่าธนาคารใช้ข้อมูลไบโอเมตริกส์เสียงควบคู่ไปกับเครื่องมืออื่นเพื่อยืนยันผู้โทร
เชสกล่าวเสริมว่าฟีเจอร์ดังกล่าวมีจุดมุ่งหมายเพื่อช่วยให้ลูกค้าระบุตัวตนได้อย่างรวดเร็วและปลอดภัย แต่ลูกค้าจะต้องให้ข้อมูลเพิ่มเติมเพื่อทำธุรกรรมและคำขอทางการเงินอื่นๆ ให้เสร็จสมบูรณ์
สิ่งที่น่ากังวลที่สุดคือแอปอย่าง ElevenLabs สามารถทำสำเนาได้ดีมากโดยไม่มีปัญหาใดๆ ผู้ใช้เพียงแค่ยอมรับนโยบายความรับผิดชอบและสามารถอัปโหลดไฟล์เสียงและสร้างสำเนาของตนเองได้
หลังจากการทดสอบของ WSJ ElevenLabs กล่าวว่าจะบล็อกบัญชีที่ดูเหมือนว่าจะสร้างเนื้อหาฉ้อโกงหรือผิดกฎหมาย นอกจากนี้ สตาร์ทอัพแห่งนี้ยังกำลังพัฒนาเครื่องมือติดป้ายกำกับ AI สำหรับวิดีโอที่สร้างขึ้นบนแพลตฟอร์มอีกด้วย
ในขณะเดียวกัน Synthesia ต้องการให้ผู้ใช้ยินยอมด้วยวาจาในการรับไฟล์เสียงและวิดีโอ ซึ่งเป็นสาเหตุที่ Stern จึงต้องเข้าไปในสตูดิโอเพื่อถ่ายทำและบันทึกสดกับบริษัท
การใช้งาน Synthesia นั้นง่ายมาก เมื่อคุณป้อนข้อความใดๆ ผู้ใช้จะได้รับวิดีโอใหม่พร้อมเสียงพูดที่พูดถึงเนื้อหานั้นๆ รูปภาพ: WSJ |
ตามที่ Siobhan Johnson โฆษกของสำนักงานสอบสวนกลาง (FBI) เปิดเผย โดยเฉลี่ยแล้ว ครอบครัวในสหรัฐฯ สูญเสียรายได้ประมาณ 11,000 ดอลลาร์ ต่อการโทรหลอกลวงแต่ละครั้ง
ในปี 2022 ข้อมูลจากสำนักงานคณะกรรมการการค้าแห่งสหรัฐอเมริกา (FTC) แสดงให้เห็นว่าชาวอเมริกันสูญเสียรายได้รวม 2.6 พันล้านดอลลาร์ เนื่องจากการโทรหลอกลวง
การพัฒนาโปรแกรม AI ที่ราคาถูกและเข้าถึงได้ทำให้ผู้หลอกลวงสามารถโคลนเสียงและสร้างบทสนทนาที่ฟังดูเหมือนกับต้นฉบับได้อย่างอิสระ
“ภัยคุกคามนี้ไม่ใช่แค่เพียงการตั้งสมมติฐาน เรากำลังเห็นผู้ฉ้อโกงนำเครื่องมือเหล่านี้มาใช้เป็นอาวุธ พวกเขาสามารถสร้างเสียงที่เลียนแบบได้ค่อนข้างดีโดยใช้เวลาน้อยกว่าหนึ่งนาที สำหรับบางคน แม้เพียงไม่กี่วินาทีก็เพียงพอแล้ว” ฮานี ฟาริด ศาสตราจารย์ด้าน วิทยาการ คอมพิวเตอร์ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ กล่าว
ลิงค์ที่มา
การแสดงความคิดเห็น (0)