米国で大規模な人工知能組織に勤務した後、なぜベトナムに戻ってVinBigdataに入社することにしたのですか? 米国で働いていたとき、多くの大規模な
政府 プロジェクトに参加しましたが、達成した成果は大規模な処理プロセスのほんの数ステップに過ぎないことがよくありました。プロジェクトの厳格な守秘義務のため、開発したソリューションがどのように使用されているかさえわからないことが多々ありました。2017年にベトナムに戻ったとき、ベトナムはまだ発展段階にあり、ビッグデータと人工知能に関連する解決すべき問題がたくさんありました。私は、ベトナムの人々の生活に役立つベトナムの技術ソリューションを開発するという目標を共同で実現するために、Vu Ha Van教授の招待を受け入れました。ベトナムに戻ったことは、より大きな影響力のある問題に取り組むことができるため、はるかに意義深いものだと感じています。
ワークショップに参加したダオ・ドゥック・ミン博士
人工知能開発戦略において、ビッグデータの役割と影響力は何でしょうか? データは人工知能の訓練において非常に重要かつ貴重な役割を果たしています。高品質の人工知能モデルを訓練するには、多くの場合、大規模なデータベースの訓練から始まります。したがって、高品質の人工知能を実現するには、まず良質なデータが必要です。良質なデータは、量と規模、品質、多様性、普遍性などの基準を満たす必要があります。生データのクリーニング段階から数千時間ものデータを収集・処理し、人工知能モデルに入力する最高品質のデータを作成するプロセスは、非常に高価で複雑です。逆に、ビッグデータを分析するには、人工知能を活用して大規模かつ正確にデータを処理する能力を確保し、より決定的または予測的な結果を生み出す必要があります。例えば、ベトナム人向けのバーチャルアシスタント製品(ViVi)の開発過程では、様々な地域、年齢、性別、そして数百分野にわたる数十万もの音声から、数万時間分の高品質な音声データを収集・処理する必要がありました。また、最近では、VinBigdataが100%所有するビッグ言語モデルから開発された「エンドユーザー向けChatGPT初のベトナム語版」であるViGPTのリリースがありました。このモデルは、様々な分野から得られた600GBの洗練されたベトナム語データに基づいてトレーニングされました。ベトナム語のデータと言語に関する当社の理解に基づき、ChatGPT誕生からわずか9か月という短期間でViGPTのリリースを実現する新たなアプローチを発見しました。これは、ビッグデータと人工知能の共鳴と言えるでしょう。
研究と実用価値を結びつけ、社会に貢献することについて、どのようにお考えですか? - 技術研究は、実際に社会に浸透し、社会課題を解決し、人々の生活を向上させて初めて真に成功すると考えています。実用的な商用製品を生み出し、ビジネスや社会の問題を解決するためには、常に「データは人生にどのような価値をもたらすのか」という問いに意識を向け、自問自答する必要があります。これまで、私たちは様々な業界や分野で、ViGPT、
医療 画像診断におけるAIソリューションを提供するVinDr、人工知能プラットフォームであるVinBase、スマート画像解析ソリューション群であるVizoneなど、様々な製品やソリューションを研究してきました。
Vingroup CorporationのイベントでVinBigdataの主要メンバーと
第四次産業革命が世界規模で力強く進んでいます。ベトナムにはどのような強みがあるとお考えですか? 過去の革命と比較すると、ベトナムは現在、この第四次産業革命を突破し、
世界 地図における国の地位向上に貢献できる多くの強みを持っていると考えています。この目標を達成するための二つの鍵は、データと人材です。ベトナムの人口は現在1億人近くで、そのうち多くの若者が携帯電話やパソコンを利用しています。さらに、人工知能(AI)の著名な専門家や、情報技術分野の若く優秀な人材を擁し、数学の基礎も非常に優れています。
では、限界は何でしょうか? まず、人口が多いにもかかわらず、データの管理、特に施設、事業部門、行政機関におけるデータの標準化と同期化が依然として困難であることです。さらに、投資資源、特に高性能コンピューティングインフラへの投資が限られているなど、他の制約にも直面しています。
ベトナム人の生活に役立つ技術を開発し、習得していく過程において、ベトナム語のデータを習得することはどれほど重要だとお考えですか? 現在、世界にはOpenAIのChatGPTやGoogleのBardなど、大規模言語モデルに基づいて作成されたAIアプリケーション製品など、先進的な人工知能製品が数多く存在します。しかし、ベトナム語はこれらの製品開発の中核言語グループではありません。そのため、ユーザーに返されるベトナム語固有のコンテンツの品質は多かれ少なかれ影響を受け、エラーが発生する可能性が高く、より危険なのは基礎知識のエラーです。ベトナム人として、私たちは独自のデータソースにアクセスできるという利点があります。ベトナム語のデータの特性、ベトナム人のニーズや特性を理解できるのは私たちだけです。したがって、ベトナム語のデータを習得することは、ベトナム人に役立つ技術でもあるコアテクノロジーを習得するための真の鍵となるのです。
VinBigdataメンバー向けの社内研修
特に、今日のベトナム人のほとんどが海外からソーシャルネットワーキングサイトを利用している現状において、特定のデータソースにどのようにアクセスすればよいのでしょうか? 実際、今日(ベトナム人に限らず)最大の人的データソースは、インターネットとソーシャルネットワークです。しかし、ベトナム語データの特性を理解し、各プロジェクトが設定する特性に応じて、様々なソースからデータにアクセスし、収集することが可能です。例えば、OpenAIのGPTモデルは数百、さらには数兆ものパラメータを持ち、膨大なデータで学習され、数十億ドルもの費用がかかります。これに対し、私たちは研究、能力、そしてリソースに基づき、全く異なる方向性を選択しました。それは、わずか数十億のパラメータを持つアーキテクチャを持つベトナム語モデルを作成し、独自に収集・改良した600GBのベトナム語データで学習させながら、ベトナム語処理能力を同等にするというものです。その結果、独自開発のアーキテクチャは自己最適化が可能で、言語モデルの学習時間を短縮し、モデルの品質を確保しながらコストを削減できることが示されました。
人工知能製品の研究開発プロセスにおいて、あなたとあなたのチームが直面した課題は何でしょうか? 最初の課題は、間違いなく時間です。人工知能技術の波は急速に到来し、爆発的な発展期を迎えています。世界では、先進的なテクノロジー企業が次々と完成度の高い製品を投入し、常にアップデートと改良を重ねています。もし私たちが対応に遅れ、タイムリーな製品投入を怠れば、確実に後れを取ってしまうでしょう。一方で、社会課題の解決に役立てられる製品を開発するためには、製品の優れた、特別な、そして独自の特徴を見出し、発展させることも重要です。
ベトナム人工知能デー(AI4VN 2023)でのプレゼンテーション
実際、ベトナム国内だけでなく世界中で、多くの個人や組織がデータ漏洩によって甚大な被害を受けています。データセキュリティの問題をどのようにお考えですか? 今日のあらゆるアプリケーションはデータから生まれていると言えるでしょう。データを扱う際には、一方ではデータを活用して生活に最適なテクノロジーを生み出すという目標を確実なものとし、他方では個人や組織のデータセキュリティを確保する必要があります。データセキュリティを確保するプロセスにおいて、人的要因は非常に重要な要素です。開発者、製品ユーザー、そしてユーザーが含まれます。開発者は、データの収集と処理の最初からデータセキュリティへの意識を高く保たなければなりません。多くの場合、問題が発生していないときは、データセキュリティの重要性を認識していません。しかし、データ漏洩が発生すると、甚大な被害が発生する可能性があります。データ侵害は、技術的な問題や意図的なデータ窃盗攻撃によって発生する可能性があります。データが侵害されると、個人や組織は悪意のある人物によって違法な目的で情報を利用される可能性があります。また、企業は関連する問題の解決のために経済的損失を被り、ブランドイメージにダメージを与える可能性があります。
イベントでのDao Duc Minh博士とVinBigdataチーム
ベトナムの人々に役立つ技術を習得したいという熱意の後には、世界進出へのステップが必要です。 製品を国際市場に投入したい組織や企業は、国際基準に準拠する必要があります。VinBigdataはソリューションとテクノロジーに強みを持つため、世界を征服するというビジョンを掲げるのは当然のことです。もちろん、多様な製品やアプリケーションを展開するには、長年の経験と世界中のユーザーへの理解を持つ国際的な組織との連携が不可欠です。
ありがとうございます! タンニエン.vn
出典: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
コメント (0)