ダオ・ドゥック・ミン博士：「ベトナムのデータに精通することは、ベトナムの技術を開発し習得するための第一歩です」

米国で大手AI企業に勤務されていたのに、なぜベトナムに戻ってVinBigdataに入社することにしたのですか？米国では多くの大規模な政府プロジェクトに参加しましたが、達成した成果は大規模な処理プロセスのほんの数ステップに過ぎないことが多々ありました。プロジェクトの厳格な守秘義務のため、開発したソリューションがどのように使われているのかさえ分からないことも多々ありました。2017年にベトナムに戻ったとき、ベトナムはまだ発展段階にあり、ビッグデータやAIに関連する多くの課題を解決する必要がありました。そこで、Vu Ha Van教授の招きを受け、ベトナムの人々の生活に役立つベトナムの技術ソリューションを開発するという目標を共同で実現しました。ベトナムに戻ったことで、より大きな影響力を持つ問題に取り組むことができるようになり、より意義深いものになったと感じています。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2. — *ワークショップでのダオ・ドゥック・ミン博士*

人工知能開発戦略において、ビッグデータはどのような役割と影響力を発揮するのでしょうか？データは人工知能のトレーニングにおいて非常に重要かつ貴重な役割を果たしています。高品質の人工知能モデルをトレーニングするには、多くの場合、大規模なデータベースのトレーニングから始まります。したがって、高品質の人工知能を実現するには、まず優れたデータが必要です。優れたデータは、量と規模、品質、多様性、普遍性などの基準を満たしていなければなりません。生データのクリーニング段階から数千時間ものデータを収集・処理し、人工知能モデルに入力する最高品質のデータを作成するプロセスは、非常に高価で複雑です。逆に、ビッグデータを分析するには、人工知能を活用して大規模かつ正確にデータを処理する能力を確保し、より決定的または予測的な結果を生み出す必要があります。例えば、ベトナム人向けのバーチャルアシスタント製品（ViVi）の開発過程では、様々な地域、年齢、性別、数百分野にわたる数十万もの音声から、数万時間分の高品質な音声データを収集・処理する必要がありました。また、最近では、VinBigdataが100%所有するビッグランゲージモデルから開発された「エンドユーザー向けChatGPT初のベトナム語版」であるViGPTのリリースがありました。このモデルは、様々な分野から得られた600GBの洗練されたベトナム語データに基づいてトレーニングされました。ベトナム語のデータと言語に関する当社の理解に基づき、ChatGPT誕生からわずか9ヶ月でViGPTのリリース期間を短縮する新たなアプローチを発見しました。これは、ビッグデータと人工知能の共鳴です。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

研究と実用価値を結び付け、社会に貢献することについて、どのようにお考えですか？ - 技術研究は、実際に社会に浸透し、社会課題を解決し、人々の生活を向上させて初めて真に成功すると考えています。実用的な商用製品を生み出し、ビジネスや社会の問題を解決するためには、常に「データは人生にどのような価値をもたらすのか」という問いに意識を向け、自問自答する必要があります。これまで、私たちは様々な分野や職種において、ViGPT、医用画像診断AIソリューションを提供するVinDr、人工知能プラットフォームであるVinBase、スマート画像解析ソリューション群であるVizoneなど、様々な製品やソリューションを研究してきました。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5. — *Vingroup CorporationのイベントでVinBigdataの主要メンバーと*

第四次産業革命が世界規模で力強く進展しています。ベトナムにはどのような強みがあるとお考えですか？過去の革命と比較すると、ベトナムは現在、この第四次産業革命において突破口を開き、世界地図における国の地位向上に貢献できる多くの強みを持っていると考えています。この目標を達成するための二つの鍵は、データと人材です。ベトナムの人口は現在1億人近くで、そのうち多くの若者が携帯電話やパソコンを利用しています。さらに、人工知能（AI）の著名な専門家や、情報技術分野の若く優秀な人材を擁し、数学の基礎も非常に優れています。では、どのような限界があるのでしょうか？まず第一に、人口が多いにもかかわらず、データの管理、特に施設、事業部、管理部門におけるデータの標準化と同期化が依然として困難であることです。さらに、投資資源、特に高性能コンピューティングインフラへの投資が限られているなど、他の制約にも直面しています。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

ベトナム人の生活に役立つ技術を創造し、習得していく過程において、ベトナム語のデータを習得することはどれほど重要だとお考えですか？現在、世界にはOpenAIのChatGPTやGoogleのBardなど、大規模言語モデルに基づいて開発されたAIアプリケーション製品など、先駆的な人工知能製品が数多く存在します。しかし、ベトナム語はこれらの製品開発の中核言語グループではありません。そのため、ユーザーに返されるベトナム語固有のコンテンツの品質は多かれ少なかれ影響を受け、エラーが発生する可能性が高く、より危険なのは基礎知識のエラーです。ベトナム人として、私たちは独自のデータソースにアクセスできるという利点があります。ベトナム語のデータの特性、ベトナム人のニーズや特性を理解できるのは私たちだけです。したがって、ベトナム語のデータを習得することは、ベトナム人に役立つコアテクノロジー、つまりテクノロジーを習得するための鍵となるのです。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7. — *VinBigdataメンバー向けの社内研修*

特に、今日のベトナム人のほとんどが海外からソーシャルネットワーキングサイトを利用している現状において、特定のデータソースにどのようにアクセスすればよいのでしょうか？実際、今日（ベトナム人だけでなく）最大の人的データソースは、インターネットとソーシャルネットワークです。しかし、ベトナムのデータ特性を理解し、各プロジェクトが設定する特性に応じて、様々なソースからデータにアクセスし、収集することが可能です。例えば、OpenAIのGPTモデルは、数百、さらには数兆ものパラメータを持ち、膨大なデータで学習させ、数十億ドルもの費用がかかっています。これに対し、私たちは研究、能力、そしてリソースに基づいて、全く異なる方向性を選択しました。それは、わずか数十億のパラメータを持つアーキテクチャを持つベトナム語モデルを作成し、独自に収集・改良した600GBのベトナム語データセットで学習させながら、ベトナム語処理に関しては同等の能力を持つようにすることです。その結果、独自開発のアーキテクチャは自己最適化が可能で、言語モデルの学習時間を短縮し、モデルの品質を確保しながらコストを削減できることが示されました。人工知能製品の研究開発プロセスにおいて、あなたとあなたのチームが直面した課題は何でしょうか？最初の課題は、間違いなく時間です。人工知能技術の波は急速に到来し、今まさにブーム期を迎えています。世界では、先進的なテクノロジー企業が次々と完成度の高い製品を投入し、常にアップデートと改良を重ねています。もし私たちが対応に遅れ、タイムリーな製品投入を怠れば、確実に後れを取ってしまうでしょう。一方で、社会課題の解決に役立てられる製品を開発するためには、製品の優れた、特別な、そして独自の特徴を見出し、発展させることも重要です。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8. — *ベトナム人工知能デー（AI4VN 2023）でのプレゼンテーション*

現実には、ベトナムや世界中で多くの個人や組織がデータ漏洩によって甚大な被害を受けています。データセキュリティの問題をどのようにお考えですか？今日のあらゆるアプリケーションはデータから生まれていると言えます。データを扱う際には、一方ではデータを活用して生活に最適なテクノロジーを創造するという目標を確実に達成する必要があり、他方では個人や組織のデータセキュリティを確保する必要があります。データセキュリティを確保するプロセスにおいて、人的要因は非常に重要な要素です。これには、開発者、製品ユーザー、そしてユーザーが含まれます。開発者は、データの収集と処理の最初からデータセキュリティへの意識を常に持ち続ける必要があります。多くの場合、問題が発生していないときは、データセキュリティの重要性を認識していません。しかし、データ漏洩が発生すると、甚大な被害が発生する可能性があります。データ侵害は、技術的な問題や意図的なデータ窃盗攻撃によって発生する可能性があります。データが侵害されると、個人や組織は悪意のある人物によって違法な目的で情報を利用される可能性があります。また、企業は関連する問題の解決のために経済的損失を被り、ブランドイメージが損なわれる可能性もあります。

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9. — *イベントに参加したダオ・ドゥック・ミン博士とVinBigdataチーム*

ベトナムの人々に役立つ技術を習得したいという熱意の後には、世界進出への道が必ずあります。製品を国際市場に投入したい組織や企業は、国際基準に準拠する必要があります。VinBigdataはソリューションとテクノロジーに強みを持つため、世界を征服するというビジョンを掲げるのは当然のことです。もちろん、多様な製品やアプリケーションを展開するには、長年の経験と世界中のユーザーへの理解を持つ国際的な組織との連携が不可欠です。ありがとうございます！

タンニエン.vn

出典: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm