Zalo AIの「GenZ」エンジニアであるLe Duy Khanh氏による、リアルタイム音声認識モデル(ストリーミング自動音声認識)の精度を高める研究プロジェクトが、2024年9月にギリシャで開催される国際科学会議で初めて発表される予定です。
2000年生まれのZalo AIエンジニアによる研究論文は、 「タイムシフトコンテキストアテンションと動的右コンテキストマスキングによるストリーミング音声認識の改善」というテーマで、ほぼ満点の11/12点を獲得し、2,000件を超える参加論文による厳しいレビューラウンドを通過し、 Interspeech Conferenceで口頭セッションの形式で発表されました。
「私の最初の科学論文が権威ある科学会議で認められ、ベトナムの研究成果を大手テクノロジー企業、専門家、国際社会に紹介する機会を得たことを非常に誇りに思います」とレ・ズイ・カーン氏は語った。
この研究プロジェクトは、Zalo AIの研究開発部門責任者であり、ホーチミン市国家大学理科大学の講師でもあるChau Thanh Duc博士の指導の下、音声認識モデルのアップグレード、Zaloアプリケーションの音声ディクテーションと音声テキスト変換の精度の向上に重要な貢献をすることが期待されています。
「 Zalo AIの非常に実用的な研究を科学論文にまとめ、権威ある国際会議で発表することは非常に意義深いことです。これはベトナムのエンジニアの能力を示すだけでなく、経験を共有し、世界のAIコミュニティの発展に貢献したいという意欲を示すものでもあります」とチャウ・タン・ドゥック博士は述べました。
以前、Zaloは2023年末からこの研究をメッセージングアプリケーションに統合し、「音声メッセージ作成」機能の精度を大幅に向上させました。この機能により、ユーザーは手動で入力する代わりに音声でメッセージを作成できるため、時間を節約でき、多くの使用状況でより便利になります。同時に、この機能の精度は実際には 95% に達しています。 音声で作成した後にテキストを再編集する必要がある割合は、6.4% からわずか 4.8% に減少しました。
Zalo の統計によると、この機能はまだテスト段階ですが、1 日あたり約 450 万件のメッセージが生成され、月間約 320 万人のユーザーが利用しています (2024 年 6 月までのデータ更新)。
Zalo は 2017 年に AI 研究の先駆的な取り組みを開始して以来、常に若い世代に「力を与える」ことを信条としてきました。現在、Zalo の従業員の最大 31% が GenZ 世代に属しています。 2021年には、Zalo AIエンジニアリングチームの音声処理技術に関連する他の2つの研究テーマも、アジア太平洋人工知能国際会議(PRICAI 2021)で認められました。注目すべきは、これら 2 つのトピックの著者はいずれも 30 歳未満の若手研究者であるということです。
Interspeech は、国際音声コミュニケーション協会が主催する、音声処理の分野における長年にわたる総合的で権威ある国際会議です。今年は、「スピーチとその先」をテーマにした会議が、 2024年9月1日から5日までコス島(ギリシャ)で開催されます。
コメント (0)