ベトナム語・音声処理(VLSP)コンテストは、ベトナム情報技術協会の支部であるVLSPクラブが主催する、毎年恒例のベトナム語・音声処理に関する国際会議の一環です。VLSP 2023では、音声およびテキスト処理に関する10のコンテストが開催され、一流の研究者、専門家、技術開発部門が一堂に会します。

Viettel AIがこのコンテストに参加するのは今回で4回目であり、これまで3回優勝しているが、コンテストのカテゴリー構造の変更により、Viettelのエンジニアたちは依然として多くの困難に直面した。

具体的には、昨年と比較して、音声認識と感情認識のカテゴリーが今年は1つのカテゴリーに統合されました。チームはテキストと文章に含まれる感情の両方を認識するために、2つの問題を同時に解かなければならないため、作業量と難易度はともに倍増しました。

低品質か高品質かを問わず、あらゆるデータを活用する

今年の試験では、カテゴリー構造の変更に加え、生データ、ラベルなしデータ、低品質データなど、限られたデータ条件からゼロからモデルを構築することに重点が置かれています。試験では、品質と形式の異なる4つのデータグループが提供されます。ラベルなし音声のみのデータ、音声とテキストのみのデータ、感情と音声を含む高品質で標準ラベルのデータ、そして感情と音声を含む低品質のデータセットです。各データセットは、それぞれの目的と試験カテゴリーに合わせて明確に定義されており、全データセットで合計300時間以上を要します。これは、通常1,000~2,000時間以上を要する音声認識のトレーニング用標準データセットと比較すると、かなり少ない時間です。

各チームには作業と提出に 2 か月未満が与えられましたが、実際にはリソース不足のため、解決策の調査に費やされた実際の時間ははるかに短かったです。

「今年、Viettel AIは、新しいテクノロジーの研究と製品開発に多くのコンピューティングインフラストラクチャリソースを投入しましたが、音声認識は多くのハードウェアリソースを必要とするテクノロジーです」と、Viettel AIの仮想アシスタントプラットフォーム担当人工知能エンジニア、ダン・ディン・ソン氏は述べています。

写真1.jpg
人工知能エンジニアリンググループ、仮想アシスタントプラットフォームブロックは、Viettel AIを代表して、音声認識および音声感情認識のカテゴリーに参加しました - VLSP 2023

データ量と品質が低いという状況に直面した研究チームは、すぐに「品質の良し悪しに関わらず、すべてのデータを活用する必要がある」という視点に至りました。そのためには、すべてのデータを処理する学習サイクルを構築し、複数のモデルではなく、単一のモデルで様々な問題を解決する必要があります。

先駆的な技術習得の結果

データとリソースの両方が不足している状況において、研究チームは、大規模ではないものの、重要な点として、細部に至るまで洗練された処理プロセスを構築することを決定しました。

ViettelのAIエンジニアは、世界中の主要な会議や学術誌に掲載された最新の研究を綿密に研究し、アプローチを模索しました。モデルを学習するための効果的なデータ処理手法と組み合わせ、研究チームは利用可能なすべてのデータを処理するための学習サイクルを構築しました。このサイクルは、ラベルなしで音声特徴を記述するための事前学習済みモデルの構築、音声認識と感情認識という2つの問題に対する事前学習済みモデルの微調整、そして推論という3つのステップで構成されています。

「以前の製品の開発・展開中にデータ不足の問題を解決した経験も、チームが意思決定方法を見つける上で大きく貢献しました。また、テストから得られた知識と結果は、Viettel AI製品にすぐに応用できる可能性もあるため、テストを受けながら作業を進めるプロセスは非常にスムーズに進みました」と、Viettel AIのバーチャルアシスタントプラットフォームエンジニア、ブイ・ティエン・ダット氏は述べています。

その結果、Viettel AIは音声認識と音声感情認識の部門で1位を獲得しただけでなく、89.18%という素晴らしいスコアも達成しました(次点はそれぞれ83.40%と78.45%)。

ソン氏は、Viettel AIが長年かけて開発してきたベトナム語専用の音声処理モデルが重要な要素であると述べた。

「Viettel AIは、既存の研究結果から得たモデルや指示を使用するのではなく、ベトナム語音声処理用の独自のモデルを構築・開発することを選択しました。このモデルは常に更新・最適化されており、ますます効果的になっています」とソン氏は述べています。

Viettel AIのこのソリューションは、競合に留まらず、仮想交換機製品やViettel仮想アシスタントのアップグレードの基盤となり、会話の中で顧客の感情をより正確に把握し、フィードバックを提供したり、適切な言葉のニュアンスを選択したりするのに役立ちます。これにより、人間とAIの会話はより自然になり、ユーザーエクスペリエンスが向上します。顧客からの苦情や交換機への苦情を自動的に識別し、タイムリーな対応や情報の活用を可能にするシステムの構築など、カスタマーケアにおける多くの新しい用途も開拓されています。

写真2.jpg
Viettel AIの仮想アシスタントプラットフォームエンジニアであるBui Tien Dat氏がチームを代表して、会議で研究結果を発表しました。

同部門の代表者は、Viettel AIは今後も技術開発を続け、製品を継続的にアップグレードして精度を高め、ユーザー体験と製品効率を強化していくと述べた。

クオック・トゥアン