Zalo AIの「GenZ」エンジニアであるLe Duy Khanh氏による、リアルタイム音声認識モデル(ストリーミング自動音声認識)の精度を高める研究プロジェクトが、2024年9月にギリシャで開催される国際科学会議で初めて発表される予定です。
2000年生まれのZalo AIエンジニアによる研究論文は、 「タイムシフトコンテキストアテンションと動的右コンテキストマスキングによるストリーミング音声認識の改善」というテーマで、ほぼ満点の11/12点を獲得し、2,000件を超える参加論文による厳しいレビューラウンドを通過し、 Interspeech Conferenceで口頭セッションの形式で発表されました。
「私の最初の科学論文が権威ある科学会議で認められ、ベトナムの研究成果を大手テクノロジー企業、専門家、国際社会に紹介する機会を得たことを非常に誇りに思います」とレ・ズイ・カーン氏は語った。
この研究プロジェクトは、Zalo AIの研究開発部門責任者であり、ホーチミン市国家大学理科大学の講師でもあるChau Thanh Duc博士の指導の下、音声認識モデルのアップグレード、Zaloアプリケーションの音声ディクテーションと音声テキスト変換の精度の向上に重要な貢献をすることが期待されています。
「 Zalo AIの非常に実用的な研究を科学論文にまとめ、権威ある国際会議で発表することは非常に意義深いことです。これはベトナムのエンジニアの能力を示すだけでなく、経験を共有し、世界のAIコミュニティの発展に貢献したいという意欲を示すものでもあります」とチャウ・タン・ドゥック博士は述べています。
Zaloは2023年末からこの研究成果を自社のメッセージングアプリケーションに統合し、「音声メッセージ作成」機能の精度を大幅に向上させました。この機能により、ユーザーはタイピングではなく音声でメッセージを作成できるため、時間を節約し、多くの利用シーンでより便利になります。同時に、この機能の実用精度は95%に達し、音声作成後にテキスト編集が必要となる割合は6.4%からわずか4.8%に減少しました。
Zalo の統計によると、この機能はまだテスト段階ですが、1 日あたり約 450 万件のメッセージが生成され、月間約 320 万人のユーザーが利用しています (2024 年 6 月までのデータ更新)。
Zaloは2017年にAI研究のパイオニアとして歩み始めて以来、常に若い世代の「エンパワーメント」を信条としてきました。現在、Zalo従業員の最大31%がGenZ世代に属しています。2021年には、Zalo AIエンジニアリングチームによる音声処理技術に関する2つの研究テーマも、アジア太平洋国際人工知能会議(PRICAI 2021)で表彰されました。注目すべきは、これら2つのテーマの著者はいずれも30歳未満の若手研究者であるということです。
Interspeechは、国際音声コミュニケーション協会(ISCA)が主催する、音声処理に関する包括的かつ権威ある国際会議であり、長年にわたり開催されています。今年は「音声とその先」をテーマとして、2024年9月1日から5日まで、コス島(ギリシャ)で開催されます。
コメント (0)