การสอน AI ให้เปล่งเสียง

ด้วยแรงบันดาลใจจากกลไกการทำงานของกล่องเสียง โมเดลปัญญาประดิษฐ์ (AI) ใหม่สามารถสร้างและเข้าใจการจำลองเสียงต่างๆ ในชีวิตประจำวันได้

วิธีการนี้สามารถสนับสนุนการพัฒนาอินเทอร์เฟซเสียงใหม่สำหรับภาคบันเทิงและ การศึกษา ได้

การเลียนแบบเสียงด้วยน้ำเสียงของคุณนั้นเหมือนกับการวาดภาพอย่างรวดเร็วเพื่อสื่อถึงสิ่งที่คุณเห็น แทนที่จะใช้ดินสอวาดภาพ คุณใช้เสียงของคุณเพื่อแสดงเสียงนั้นออกมา แม้ว่าสิ่งนี้อาจดูยาก แต่เป็นสิ่งที่ทุกคนทำได้โดยธรรมชาติ ลองเลียนแบบเสียงไซเรนรถพยาบาล เสียงร้องของนกกา หรือเสียงระฆังเพื่อสัมผัสประสบการณ์นี้ดู

ด้วยแรงบันดาลใจจาก วิทยาศาสตร์ ทางด้านการรับรู้เกี่ยวกับการสื่อสารของเรา นักวิจัยจากห้องปฏิบัติการวิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ได้พัฒนาระบบ AI ที่สามารถสร้างเสียงจำลองที่เหมือนมนุษย์ได้โดยไม่ต้องฝึกฝนและไม่ต้องเคย "ได้ยิน" เสียงจำลองของมนุษย์มาก่อน

เพื่อให้บรรลุเป้าหมายนี้ ทีมวิจัยได้ออกแบบระบบของพวกเขาให้สร้างและตีความเสียงในลักษณะที่เลียนแบบการพูดของมนุษย์ พวกเขาเริ่มต้นด้วยการสร้างแบบจำลองของช่องเสียงของมนุษย์ โดยจำลองว่าการสั่นสะเทือนจากกล่องเสียงถูกปรับเปลี่ยนรูปร่างอย่างไรโดยลำคอ ลิ้น และริมฝีปาก จากนั้น พวกเขาใช้อัลกอริธึม AI ที่ได้รับแรงบันดาลใจจากกระบวนการคิดเพื่อจัดการแบบจำลองนี้ สร้างการจำลองเสียงโดยคำนึงถึงวิธีการสื่อสารด้วยเสียงเฉพาะในแต่ละบริบท

โมเดลนี้สามารถจำลองเสียงต่างๆ ในสภาพแวดล้อมได้หลากหลาย เช่น เสียงใบไม้ปลิว เสียงงูขู่ หรือเสียงไซเรนรถพยาบาล นอกจากนี้ โมเดลยังสามารถทำงานในทางกลับกันเพื่อทำนายเสียงจริงจากการจำลองเสียงพูดของมนุษย์ คล้ายกับระบบคอมพิวเตอร์วิชั่นบางระบบที่สร้างภาพคุณภาพสูงจากภาพร่าง ตัวอย่างเช่น โมเดลสามารถแยกแยะความแตกต่างระหว่างเสียงแมวร้องและเสียงแมวครางได้อย่างแม่นยำเมื่อเลียนแบบโดยมนุษย์

ในอนาคต โมเดลนี้อาจนำไปสู่ส่วนติดต่อผู้ใช้แบบ "จำลอง" ที่ใช้งานง่ายยิ่งขึ้นสำหรับนักออกแบบเสียง ตัวละคร AI ที่เหมือนมนุษย์มากขึ้นในโลกเสมือนจริง และแม้กระทั่งวิธีการช่วยเหลือนักเรียนในการเรียนรู้ภาษาต่างประเทศ

ผู้เขียนหลักของการศึกษานี้ ได้แก่ นักศึกษาปริญญาโท Kartik Chandra (MIT CSAIL), Karima Ma และนักศึกษาผู้ช่วยวิจัย Matthew Caren ตั้งข้อสังเกตว่า นักวิจัยด้านกราฟิกคอมพิวเตอร์ตระหนักมานานแล้วว่า ความสมจริงไม่ใช่เป้าหมายสูงสุดของการแสดงออกทางภาพ ตัวอย่างเช่น ภาพวาดนามธรรมหรือภาพวาดเล่นของเด็ก ๆ สามารถสื่อความหมายได้มากเท่ากับภาพถ่าย

ศิลปะแห่งการเลียนแบบเสียงผ่าน 3 ขั้นตอน

ทีมงานได้พัฒนารูปแบบจำลองขึ้นมาสามเวอร์ชันที่มีความซับซ้อนมากขึ้นเรื่อยๆ เพื่อเปรียบเทียบกับการจำลองเสียงของมนุษย์ เวอร์ชันแรกคือรูปแบบจำลองพื้นฐานที่เน้นเฉพาะการสร้างการจำลองที่คล้ายกับเสียงจริงมากที่สุด แต่รูปแบบจำลองนี้ไม่ตรงกับพฤติกรรมของมนุษย์

ต่อมา ทีมงานได้ออกแบบโมเดลที่สองเรียกว่าโมเดล “การสื่อสาร” ตามที่คาเรนกล่าว โมเดลนี้พิจารณาองค์ประกอบลักษณะเฉพาะของเสียงสำหรับผู้ฟัง ตัวอย่างเช่น คุณสามารถเลียนแบบเสียงเรือได้โดยการจำลองเสียงคำรามของเครื่องยนต์ เนื่องจากนั่นเป็นลักษณะเฉพาะของเสียงที่จดจำได้ง่ายที่สุด แม้ว่ามันจะไม่ใช่องค์ประกอบที่สำคัญที่สุด (เช่น เสียงคลื่นกระทบฝั่ง เป็นต้น) โมเดลนี้ได้รับการปรับปรุงอย่างมากจากเวอร์ชันแรก

สุดท้าย ทีมวิจัยได้เพิ่มเหตุผลอีกชั้นหนึ่งเข้าไปในแบบจำลอง จันทราอธิบายว่า “เสียงจำลองอาจแตกต่างกันไปขึ้นอยู่กับความพยายามที่คุณทุ่มเทลงไป การสร้างเสียงที่แม่นยำต้องใช้เวลาและพลังงาน” แบบจำลองที่สมบูรณ์ของทีมคำนึงถึงเรื่องนี้โดยหลีกเลี่ยงเสียงที่เร็วเกินไป ดังเกินไป หรือสูง/ต่ำเกินไป ซึ่งเป็นองค์ประกอบที่ไม่น่าจะปรากฏในการสื่อสารปกติ ผลลัพธ์ที่ได้คือการจำลองเสียงที่เหมือนมนุษย์มากขึ้น สะท้อนให้เห็นถึงการตัดสินใจหลายอย่างที่มนุษย์ทำเมื่อเลียนแบบเสียงที่คล้ายคลึงกัน

มุ่งสู่เทคโนโลยีเสียงที่แสดงออกได้ดียิ่งขึ้น

โมเดลนี้อาจช่วยให้ศิลปินสื่อสารเสียงกับระบบคอมพิวเตอร์ได้อย่างมีประสิทธิภาพมากขึ้น ช่วยเหลือผู้สร้างภาพยนตร์และผู้สร้างเนื้อหาในการสร้างเสียง AI ที่เกี่ยวข้องกับบริบทเฉพาะได้ดียิ่งขึ้น นอกจากนี้ยังช่วยให้นักดนตรีสามารถค้นหาฐานข้อมูลเสียงได้อย่างรวดเร็วโดยการจำลองเสียงที่ยากต่อการอธิบายเป็นลายลักษณ์อักษร

ในขณะเดียวกัน ทีมวิจัยกำลังสำรวจการประยุกต์ใช้แบบจำลองนี้ในด้านอื่นๆ รวมถึงพัฒนาการทางภาษา วิธีที่ทารกเรียนรู้ที่จะพูด และพฤติกรรมการเลียนแบบของนก เช่น นกแก้วหรือนกขับขาน

อย่างไรก็ตาม โมเดลปัจจุบันยังมีข้อจำกัดอยู่บ้าง เช่น มีปัญหาในการจำลองเสียงพยัญชนะอย่าง “z” ทำให้การจำลองเสียงต่างๆ เช่น เสียงหึ่งๆ ไม่แม่นยำ นอกจากนี้ ยังไม่สามารถจำลองวิธีการที่มนุษย์เลียนแบบเสียงพูด เสียงดนตรี หรือเสียงต่างๆ ที่เลียนแบบในภาษาต่างๆ เช่น เสียงหัวใจเต้นได้

ศาสตราจารย์ด้านภาษาศาสตร์ โรเบิร์ต ฮอว์กินส์ แห่งมหาวิทยาลัยสแตนฟอร์ด ให้ความเห็นว่า “การเปลี่ยนผ่านจากเสียงของแมวจริงๆ ไปสู่คำว่า 'เหมียว' แสดงให้เห็นถึงปฏิสัมพันธ์ที่ซับซ้อนระหว่างสรีรวิทยา การให้เหตุผลทางสังคม และการสื่อสารในการวิวัฒนาการของภาษา แบบจำลองนี้เป็นก้าวที่น่าตื่นเต้นในการวางรูปแบบและทดสอบทฤษฎีเกี่ยวกับกระบวนการเหล่านี้”

(ที่มา: ข่าวจาก MIT)

[โฆษณา_2]
ที่มา: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html