Vietnam.vn - Nền tảng quảng bá Việt Nam

เครื่องมือแปลงคำพูดเป็นข้อความของ AI ยัง "บิดเบือน" อีกด้วย

Công LuậnCông Luận29/10/2024

(CLO) เครื่องมือแปลงคำพูดเป็นข้อความ Whisper ของ OpenAI ได้รับการโฆษณาว่า "มีประสิทธิภาพและแม่นยำในระดับใกล้เคียงกับมนุษย์" แต่มีข้อเสียสำคัญประการหนึ่ง นั่นก็คือ มีแนวโน้มที่จะสร้างข้อความสั้นๆ หรือแม้แต่ประโยคทั้งประโยค!


ผู้เชี่ยวชาญกล่าวว่าข้อความบางส่วนที่ผลิตขึ้น ซึ่งในอุตสาหกรรมรู้จักในชื่อยาหลอนประสาท อาจมีการวิพากษ์วิจารณ์ทางเชื้อชาติ ความรุนแรง และแม้แต่การรักษา ทางการแพทย์ ในจินตนาการ

ผู้เชี่ยวชาญกล่าวว่าการกุเรื่องดังกล่าวถือเป็นเรื่องร้ายแรง เนื่องจาก Whisper ถูกใช้ในอุตสาหกรรมต่างๆ ทั่วโลก ในการแปลและถอดเสียงบทสัมภาษณ์ สร้างวิดีโอข้อความและคำบรรยาย

ที่น่ากังวลยิ่งกว่านั้น คือ ศูนย์การแพทย์กำลังใช้เครื่องมือที่ใช้ Whisper ในการบันทึกการปรึกษาระหว่างแพทย์กับคนไข้ แม้ว่า OpenAI จะเตือนว่าไม่ควรใช้เครื่องมือดังกล่าวใน "พื้นที่เสี่ยงสูง" ก็ตาม

เครื่องมือแปลงคำพูดเป็นข้อความที่ใครๆ ก็สามารถแก้ไขรูปภาพได้ 1

ประโยคที่ขึ้นต้นด้วย "#Ground truth" คือประโยคที่พูดจริง ส่วนประโยคที่ขึ้นต้นด้วย "#text" คือประโยคที่ Whisper ถอดความออกมา ภาพ: AP

นักวิจัยและวิศวกรกล่าวว่า Whisper มักทำให้เกิดภาพหลอนระหว่างการใช้งาน ยกตัวอย่างเช่น นักวิจัยจากมหาวิทยาลัยมิชิแกนกล่าวว่าเขาพบภาพหลอนใน 8 ใน 10 ของการบันทึกที่เขาตรวจสอบ

วิศวกรการเรียนรู้ของเครื่องรุ่นแรกๆ คนหนึ่งพบการบิดเบือนนี้ในทรานสคริปต์ Whisper ประมาณครึ่งหนึ่งจากทั้งหมดกว่า 100 ชั่วโมงที่เขาวิเคราะห์ นักพัฒนาอีกคนหนึ่งกล่าวว่าเขาพบภาพลวงตานี้ในทรานสคริปต์เกือบทั้งหมดจากทั้งหมด 26,000 ทรานสคริปต์ที่สร้างด้วย Whisper

ภาพลวงตานี้ยังคงอยู่แม้ในตัวอย่างเสียงสั้นๆ ที่บันทึกไว้อย่างดี การศึกษาเมื่อเร็วๆ นี้โดย นักวิทยาศาสตร์ คอมพิวเตอร์พบความเพี้ยน 187 จุดในคลิปเสียงที่ชัดเจนกว่า 13,000 คลิปที่พวกเขาตรวจสอบ

นักวิจัยกล่าวว่าแนวโน้มดังกล่าวจะส่งผลให้เกิดข้อผิดพลาดนับหมื่นรายการในบันทึกหลายล้านรายการ

ความผิดพลาดดังกล่าวอาจก่อให้เกิด “ผลลัพธ์ที่ร้ายแรงจริงๆ” โดยเฉพาะอย่างยิ่งในโรงพยาบาล Alondra Nelson ศาสตราจารย์จากคณะสังคมศาสตร์ สถาบันการศึกษาระดับสูง กล่าว

“ไม่มีใครอยากได้รับการวินิจฉัยผิด จำเป็นต้องมีกำแพงที่สูงกว่านี้” เนลสันกล่าว

ศาสตราจารย์อัลลิสัน โคเนค และโมนา สโลน จากมหาวิทยาลัยเวอร์จิเนีย มหาวิทยาลัยคอร์เนลล์ ได้ตรวจสอบข้อความสั้นๆ หลายพันฉบับที่พวกเขารวบรวมมาจาก TalkBank ซึ่งเป็นคลังข้อมูลงานวิจัยที่มหาวิทยาลัยคาร์เนกีเมลลอนจัดเก็บไว้ พวกเขาพบว่าภาพหลอนเกือบ 40% เป็นอันตรายหรือรบกวนจิตใจ เนื่องจากผู้พูดอาจถูกเข้าใจผิดหรือบิดเบือน

ผู้พูดในบันทึกเสียงหนึ่งบรรยายถึง "เด็กผู้หญิงอีกสองคนและผู้หญิงหนึ่งคน" แต่ Whisper ได้กุเรื่องความคิดเห็นเกี่ยวกับเชื้อชาติเพิ่มเติม โดยเสริมว่า "เด็กผู้หญิงอีกสองคนและผู้หญิงหนึ่งคน เอ่อ เป็นคนผิวดำ"

ในอีกบทหนึ่ง Whisper ได้ประดิษฐ์ยาที่ไม่มีอยู่จริงที่เรียกว่า "ยาปฏิชีวนะที่มีฤทธิ์เพิ่มขึ้น"

ในขณะที่นักพัฒนาส่วนใหญ่มักคิดว่าเครื่องมือถอดเสียงสามารถสะกดผิดหรือเกิดข้อผิดพลาดอื่นๆ ได้ วิศวกรและนักวิจัยกล่าวว่าพวกเขาไม่เคยเห็นเครื่องมือถอดเสียงที่ขับเคลื่อนด้วย AI ใดที่ทำให้เกิดภาพหลอนได้เท่ากับ Whisper เลย

เครื่องมือนี้ถูกรวมเข้ากับ ChatGPT ซึ่งเป็นแชทบอทเรือธงของ OpenAI หลายเวอร์ชัน และเป็นบริการแบบผสานรวมในแพลตฟอร์มคลาวด์คอมพิวติ้งของ Oracle และ Microsoft ซึ่งให้บริการแก่บริษัทหลายพันแห่งทั่วโลก นอกจากนี้ยังใช้ในการถอดเสียงและแปลข้อความเป็นหลายภาษาอีกด้วย

หง็อก อันห์ (ตามรายงานของเอพี)



ที่มา: https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html

การแสดงความคิดเห็น (0)

No data
No data
ฉากมหัศจรรย์บนเนินชา 'ชามคว่ำ' ในฟู้โถ
3 เกาะในภาคกลางเปรียบเสมือนมัลดีฟส์ ดึงดูดนักท่องเที่ยวในช่วงฤดูร้อน
ชมเมืองชายฝั่ง Quy Nhon ของ Gia Lai ที่เป็นประกายระยิบระยับในยามค่ำคืน
ภาพทุ่งนาขั้นบันไดในภูทอ ลาดเอียงเล็กน้อย สดใส สวยงาม เหมือนกระจกก่อนฤดูเพาะปลูก
โรงงาน Z121 พร้อมแล้วสำหรับงาน International Fireworks Final Night
นิตยสารท่องเที่ยวชื่อดังยกย่องถ้ำซอนดุงว่าเป็น “ถ้ำที่งดงามที่สุดในโลก”
ถ้ำลึกลับดึงดูดนักท่องเที่ยวชาวตะวันตก เปรียบเสมือน 'ถ้ำฟองญา' ในทัญฮว้า
ค้นพบความงดงามอันน่ารื่นรมย์ของอ่าว Vinh Hy
ชาที่มีราคาแพงที่สุดในฮานอย ซึ่งมีราคาสูงกว่า 10 ล้านดองต่อกิโลกรัม ได้รับการแปรรูปอย่างไร?
รสชาติแห่งภูมิภาคสายน้ำ

มรดก

รูป

ธุรกิจ

No videos available

ข่าว

ระบบการเมือง

ท้องถิ่น

ผลิตภัณฑ์