โครงการวิจัยเพื่อเพิ่มความแม่นยำของโมเดลการจดจำเสียงพูดแบบเรียลไทม์ (Streaming Automatic Speech Recognition) โดย Le Duy Khanh วิศวกร "GenZ" ของ Zalo AI จะได้รับการประกาศเป็นครั้งแรก ใน งานประชุมวิทยาศาสตร์นานาชาติที่จะจัดขึ้นที่ประเทศกรีซในเดือนกันยายน พ.ศ. 2567
งานวิจัยของวิศวกร AI ของ Zalo ซึ่งเกิดในปี 2000 มี หัวข้อว่า " การปรับปรุงการจดจำคำพูดแบบสตรีมมิ่งด้วย Time-Shifted Contextual Attention และ Dynamic Right Context Masking " ซึ่ง ได้คะแนนเกือบสมบูรณ์แบบที่ 11/12 คะแนน ผ่านรอบการตรวจสอบอันเข้มงวดที่มีบทความที่เข้าร่วมกว่า 2,000 บทความ ซึ่งจะนำเสนอในงาน Interspeech Conference ในรูปแบบการพูด
“ ผมรู้สึกภูมิใจมากที่บทความทางวิทยาศาสตร์ชิ้นแรกของผมได้รับการยอมรับจากการประชุมทางวิทยาศาสตร์อันทรงเกียรติ และผมมีโอกาสแนะนำความสำเร็จด้านการวิจัยของเวียดนามให้กับบริษัทเทคโนโลยีขนาดใหญ่ ผู้เชี่ยวชาญ และชุมชนนานาชาติ ” เล ดุย ข่านห์ กล่าว
ภายใต้การแนะนำของดร. Chau Thanh Duc หัวหน้าแผนกวิจัยและพัฒนาที่ Zalo AI อาจารย์ประจำมหาวิทยาลัยวิทยาศาสตร์ (มหาวิทยาลัยแห่งชาติโฮจิมินห์ซิตี้) คาดว่าโครงการวิจัยนี้จะมีผลงานสำคัญในการยกระดับโมเดลการจดจำเสียงพูด เพิ่มความแม่นยำของการบอกด้วยเสียงและการแปลงเสียงเป็นข้อความบนแอปพลิเคชัน Zalo
“ การสังเคราะห์งานวิจัยเชิงปฏิบัติอันล้ำสมัยของ Zalo AI เข้ากับบทความทางวิทยาศาสตร์ และนำเสนอในการประชุมนานาชาติอันทรงเกียรตินั้นมีความสำคัญอย่างยิ่ง ไม่เพียงแต่แสดงให้เห็นถึงศักยภาพของวิศวกรชาวเวียดนามเท่านั้น แต่ยังแสดงให้เห็นถึงความปรารถนาที่จะแบ่งปันประสบการณ์และมีส่วนร่วมในการพัฒนาชุมชน AI ทั่วโลกอีกด้วย” ดร. เชา แถ่ง ดึ๊ก กล่าว
ก่อนหน้านี้ Zalo ได้ผนวกรวมงานวิจัยนี้เข้ากับแอปพลิเคชันส่งข้อความตั้งแต่ปลายปี 2566 ซึ่งช่วยปรับปรุงความแม่นยำของฟีเจอร์ "การเขียนข้อความเสียง" อย่างมีนัยสำคัญ ฟีเจอร์นี้ช่วยให้ผู้ใช้สามารถเขียนข้อความด้วยเสียงแทนการพิมพ์ ช่วยประหยัดเวลาและสะดวกยิ่งขึ้นในหลายสถานการณ์การใช้งาน ขณะเดียวกัน ความแม่นยำของฟีเจอร์นี้ยังสูงถึง 95% ในทางปฏิบัติ โดยอัตราความจำเป็นในการแก้ไขข้อความหลังจากเขียนด้วยเสียงลดลงจาก 6.4% เหลือเพียง 4.8%
ตามสถิติของ Zalo แม้ว่าฟีเจอร์ดังกล่าวยังอยู่ในขั้นตอนการทดสอบ แต่ก็สามารถสร้างข้อความได้เกือบ 4.5 ล้านข้อความต่อวัน และดึงดูดผู้ใช้รายเดือนได้ประมาณ 3.2 ล้านราย (ข้อมูลอัปเดตถึงเดือนมิถุนายน 2024)
นับตั้งแต่เริ่มต้นเส้นทางบุกเบิกการวิจัย AI ในปี 2560 Zalo เชื่อมั่นเสมอในการ "เสริมพลัง" ให้กับคนรุ่นใหม่ ปัจจุบัน พนักงาน Zalo มากถึง 31% เป็นคนรุ่น GenZ ในปี 2564 หัวข้อวิจัยอีกสองหัวข้อของทีมวิศวกร AI ของ Zalo ที่เกี่ยวข้องกับเทคโนโลยีการประมวลผลเสียงก็ได้รับการยอมรับในการประชุมนานาชาติว่าด้วยปัญญาประดิษฐ์แห่งเอเชีย แปซิฟิก (PRICAI 2021) เช่นกัน โดยเฉพาะอย่างยิ่ง ผู้เขียนหัวข้อทั้งสองนี้เป็นนักวิจัยรุ่นใหม่ที่มีอายุต่ำกว่า 30 ปี
Interspeech เป็นการประชุมนานาชาติด้านการประมวลผลเสียงพูดที่จัดขึ้นอย่างยาวนาน ครอบคลุม และมีชื่อเสียง จัดโดยสมาคมการสื่อสารด้วยเสียงพูดนานาชาติ (International Speech Communication Association) ในปีนี้ การประชุมภายใต้หัวข้อ “Speech and beyond ” จะจัดขึ้นระหว่างวันที่ 1-5 กันยายน 2567 ณ เกาะคอส (ประเทศกรีซ)
การแสดงความคิดเห็น (0)