PV:人工知能のトレーニングにおけるデータの役割と価値について教えていただけますか?
ダオ・ドゥック・ミン氏:人工知能の成功は、データの選択、収集、処理方法の理解に大きく左右されます。高品質な人工知能モデルを学習させるには、多くの場合、かなり大規模なデータベースから学習を始めます。
その後、モデルが展開されテストされると、継続的なデータ収集と処理がモデルの品質の向上と完成に非常に重要な役割を果たします。
データは、量、質、多様性、そして普遍性という点で基準を満たす必要があります。例えば、ベトナム人向けのViViバーチャルアシスタント製品を開発する過程では、彼らを訓練するために、様々な地域、年齢、性別、そして数百分野にわたるコンテンツを含む数十万もの音声から、数万時間分の高品質なデータを収集・処理する必要がありました。
生データはまずクリーニング、ラベル付けされ、多くのステップを経て処理され、AIモデルに入力する最高品質のデータソースが作成されます。これにより、ViViの精度が向上します。この数値はほぼ最大値の98%以上に達します。
数千時間分のデータを収集・処理するのは非常にコストがかかり、複雑です。しかし、質の高い人工知能を実現するには良質なデータが必要です。ChatGPTやBard(Googleのチャットボット)はどちらも、インターネット上の様々なソースから収集された膨大なデータソースで学習されています。
AIが成功するには、大規模かつ多様なデータソースで学習させ、高精度な結果を生み出す必要があります。一方、ビッグデータを分析するには、AIを用いて大規模かつ正確にデータ処理する能力を確保し、より決定的な、あるいは予測的な結果を生み出す必要があります。
それは人工知能とビッグデータの共鳴です。
PV:機械学習のためのデータの選択と収集プロセスについて教えてください。データはどのように収集され、どのような情報源から収集されるのでしょうか?特に、ベトナム人ユーザーに関する最も多くの情報を保有しているのは、外国企業のソーシャルネットワーキングサイト(Google、Facebookなど)であるにもかかわらずです。
ダオ・ドゥック・ミン氏:機械学習モデルのためのデータを選択し収集するプロセスの最初のステップは、何が適切な選択なのかを理解することです。ビッグデータの5Vモデルを参考にすると、適切なデータソースとは、量、価値、多様性、速度、そして真実性の5つの要素すべてを備えたものと言えます。
通常、実際のアプリケーションに最適な AI モデルを作成するには、優れたデータ ソースが、多くの類似した問題にわたって多様かつ普遍的であると同時に、そのアプリケーションに特有かつ個別であることも必要です。
人間のデータに関する最大の情報源はインターネットとソーシャルネットワークにあることは事実です。このデータソースの大部分は外国企業が所有しています。しかし、データは様々な情報源から得られる可能性があり、ベトナムは依然として自国のデータソースにアクセスできるという優位性を持っています。さらに、ベトナム人にしか解決できないデータ関連の課題もあります。私たちは「ベトナムのデータ」の特性を理解し、ベトナム人のニーズと特性を理解し、テクノロジーをベトナム人の生活に役立てることができるからです。
ViViにとって、VinBigDataが最初に設定した課題は、ベトナム人によってベトナム人のために作られた音声アシスタント製品を提供することでした。つまり、ベトナムのデータソースを習得し、人工知能技術と組み合わせることで、ベトナム人のニーズに最適な、応用性の高い製品を提供することです。
これらの目標から、トレーニングに必要なデータソースをどこから収集する必要があるかがわかります。このデータソースは、必ずしもWeb上の膨大なデータソースである必要はありません。
VinBigDataは設立以来、ベトナムのデータとテクノロジーを掌握したいという強い思いから、ベトナム特有のデータソースを構築してきました。保有するデータの総量は3,500テラバイトを超えています。具体的には、ベトナムにおける数百万件の多地域にわたる音声データ、様々なソースから収集された200万件以上の医療画像、ベトナムにおける複数のオブジェクト(人、車両、物体)を撮影した数百万件のカメラ画像データ、そして数十種類の多分野にわたるデータベースなど、収集、クリーニング、処理、ラベル付けされたデータです。
特に2021年には、ベトナム人1000人ゲノムのシークエンスプロジェクト(VinBigDataの前身であるビッグデータ研究所が公開)を発表し、ベトナム最大のゲノムデータベースを保有する組織の一つとなりました。この研究成果は、ベトナムにおける将来の個別化医療の実現を目指し、医師や遺伝学者のコミュニティと共有され続けています。
PV :データが収集された後、次に何が起こり、どのように標準化されるのでしょうか?データは多ければ多いほど良いのでしょうか?
ダオ・ドゥック・ミン氏:先ほど申し上げたように、データ収集においては量が重要な要素の一つです。しかし、もう一つ強調したいのは、データが適切に選択、整理、分類されなければ、ビッグデータだけでは不十分だということです。
通常、データは収集(構造化データと非構造化データ)、保存(データベースシステムへのデータの保存)、処理(フィルタリング、クリーニング、ラベリング、データ拡張、情報抽出/統合、データ可視化などの一連のステップを含む)、そして分析という基本的な処理サイクルを経ます。このプロセスは、AIシステムの開発と完成まで何度も繰り返される可能性があります。
重要なのは、データがどのような価値を生活にもたらすかということです。VinBigDataは、約5年間にわたる研究開発と製品開発を通じて、まさにこの価値を育んできました。テクノロジーが真に生活に浸透し、社会課題を解決し、人々の生活を向上させてこそ、研究は真の成功を収めることができると私たちは信じています。
PV:最近、私たちがどのように独自のデータウェアハウスを収集し、構築しているかについて、詳しくお話いただきました。ユーザーの権利を守るために、データの収集と利用の範囲を定める基準は何でしょうか?
ダオ・ドゥック・ミン氏:データの収集と処理のプロセスには、ユーザーと企業を保護するための法的規制やセキュリティ基準が必要です。ベトナムは、ユーザーデータを保護するための具体的な基準の構築と完成の過程にあります。
世界にはすでに多くの標準が存在します。例えば、GDPR(欧州連合のユーザーデータ保護基準)やPCI-DSS(カード決済ユーザーの保護を目的とした標準)などです。
ベトナム製品を国際市場に普及させたり、投入したりしたい場合、これらの国際基準を遵守することが非常に重要です。
当面は、ユーザーの権利を確保するため、VinBigDataは、データの収集と利用の目的と目標を公開し、特に個人が所有するデータに関して、データの収集と利用のプロセスの透明性を確保するよう努めます。
現在、VinBigDataはユーザーのセキュリティと権利を確保するために、複数の国際機関と協定を結んでいます。今後は、企業と政府の間で合意が得られ、ユーザーデータ保護に関する法的枠組みと法的基準が早期に構築されることを期待しています。
PV:ビッグデータを保有する場合、人工知能はリスクやデータセキュリティの脆弱性にどのように対処するのでしょうか?
ダオ・ドゥック・ミン氏:適切に使用すれば、 データは貴重な資産です。データの紛失や漏洩のリスクは、初期段階からセキュリティ対策を講じる必要がある課題です。
何かが起こるまで、データセキュリティの重要性を十分に理解していないことがよくあります。しかし、何かが起こると、その被害は甚大なものになります。最近、2億人以上のTwitterユーザーのデータが漏洩しました。ユーザー情報は様々なプラットフォームで公開されていました。仮に、この数百万人のユーザー全員が訴訟を起こしたら、Twitterは莫大な損失を被るでしょう。
データ漏洩が純粋に技術的な問題であれば、被害は通常は軽微です。しかし、意図的なデータ窃盗に関連する場合、その影響は非常に予測不可能です。個人の場合、悪意のある人物が漏洩した情報を様々な違法目的に悪用する可能性があります。企業の場合、情報漏洩は関連する問題の解決に多大な経済的損失をもたらすだけでなく、市場における評判やブランドイメージにも悪影響を及ぼします。
PV :これらの脆弱性を「修正」し、データのセキュリティを向上させるには、どのようなソリューションが必要ですか?
ダオ・ドゥック・ミン氏:最初の、そして最も有効な解決策は、最初から予防することです。つまり、情報のセキュリティと安全性を保護するための機器の構築、多層防御、正しいプロセスの運用です。
具体的には、安全対策とセキュリティ対策には様々な階層が含まれます。セキュリティ対策への投資に加え、ユーザーとデータの処理・インタラクションのプロセス構築、厳格なデータライフサイクル管理プロセスの確立、ユーザーと運用チームの情報セキュリティに関するスキルと意識の向上、適切なデータ利用権限の付与(誰がどのデータにアクセスし、どのデータを使用する権利を持つか)も同時に必要です。
一方、企業は、データセキュリティポリシーを特定して柔軟に適用し、各タイプのデータの機密性レベルとセキュリティレベルを分類して適切なセキュリティ対策を講じ、データの開発と活用のプロセスを妨げる可能性のある情報セキュリティポリシーを機械的に厳密に適用することを避ける必要があります。
特に開発にデータを利用する部門では、データの分類がさらに重要になります。なぜなら、データは複数の部門間で頻繁に循環することになるからです。
企業は最悪の事態に備え、関係する専門家を配置して、可能な限り被害を最小限に抑える必要があります。
PV : 2023年はデータの年になるでしょう。ベトナムのデータにおける強みと弱みは何でしょうか?デジタルデータにとって成功する年に向けて、どのような準備が必要だと思いますか?
ダオ・ドゥック・ミン氏: 2023年はベトナムにとってデジタルデータの元年となるでしょう。強みの面では、まずデータ分野において優位性があります。ベトナムは1億人の人口を抱え、そのうちスマートフォンやパソコンなどを利用する若者の割合が高いです。これがベトナムにおけるデータ活用を推進し、人工知能によって解決すべき課題を提示する上での特徴です。二つ目の強みは人材です。具体的には、ベトナムには人工知能の分野で世界をリードする専門家がいます。さらに、ベトナムの情報技術分野の若い人材は、数学の基礎が非常に優れています。これら二つの人材を組み合わせることで、国際水準の製品を生み出すことができるのです。
制約に関しては、データの標準化が困難です。ベトナムでは、場所、企業、行政単位ごとにデータが異なっており、標準化されておらず、断片化され、同期もされていません。また、データの標準化には、より具体的な法的枠組みが必要です。
ベトナムがデジタルデータ年を成功させるには、核心となるポイントを把握するとともに、テクノロジーの力を最大限に活用する必要があります。ビッグデータと人工知能の共鳴こそが、ベトナムのデジタルデータ年を牽引する鍵となるでしょう。
ベトナムは、中央から地方、政府、企業に至るまで、あらゆるレベルのデータを掌握することで、国の貴重なデジタル資源を「保全」することができます。そして、高度な知的技術と組み合わせることで、この資源を最大限に活用できるようになります。
「ベトナム人がベトナムのデータを所有する」ことは、ベトナムが自国の資源を利用して搾取した製品を買い戻すという状況を回避するのにも役立ちます。
現在、特に第4次産業革命の渦中にあるベトナムは、過去の革命と比べて多くの優位性を有しています。テクノロジーを駆使し、世界地図における自国の地位を迅速に向上させ、追いつくための機会に恵まれています。この目標をより迅速かつ持続的に達成するための鍵は、「データ」と「人材」にあると考えています。
PV:アメリカの大手人工知能企業で働いた後、ベトナムに戻ってきたきっかけは何ですか?
ダオ・ドゥック・ミン氏: 2017年にベトナムに戻りました。これが転機だったと言えるでしょう。米国では多くの大規模な政府プロジェクトに携わっていましたが、得られた成果は大規模な処理プロセスの中のほんの数ステップに過ぎないことが多々ありました。プロジェクトのセキュリティ手順が非常に厳格だったため、自分が開発したソリューションが実際に使われているかどうかさえわからないこともありました。
一方、ベトナムは発展途上であり、ビッグデータや人工知能に関して解決すべき課題が数多く存在します。当時、私はヴー・ハ・ヴァン教授から「ベトナムに戻り、ベトナムの人々の生活に役立つベトナムの技術ソリューションを開発するという目標を実現したい」というお誘いを受けました。
ベトナムに留まれば、より大きな影響力を持つ問題に取り組むことができると感じています。それが、私の帰国をより意義深いものにする重要な点の一つです。
PV:本日はお話をありがとうございました。
- 制作団体:ベト・アン・ホン・ヴァン
- 出演:ティ・ウイエン
- 写真:タン・ダット
コメント (0)