Pho GPT は Pho (Generative Pre-trained Transformer) の略で、 Vingroup Corporation のメンバーである VinAI エンジニアリング チームによって実装された、ベトナム語専用の大規模な言語モデル プロジェクトです。
世界の技術に「追いつく」
Pho GPTは、OpenAIのChatGPTのようなプロプライエタリソフトウェアではなく、オープンソースコードを使用しています。つまり、Pho GPTのソースコードは公開されており、ユーザーはカスタムアプリケーションを通じてPho GPTの開発に貢献できます。
VinAIによると、Pho GPTはTransformerデコードプラットフォーム上に構築され、75億のパラメータを備えています。このモデルは、Flash AttentionメカニズムやAliBiコンテキスト長外挿といった最先端の技術を用いて、ゼロから学習されています。
これらの技術は、Pho GPTが文脈をより深く理解するのに役立つだけでなく、アプリケーションの使用中に自然な対話やインタラクションを実現する能力も向上させます。これにより、Pho GPTは多用途でマルチタスクなツールとなり、ユーザーの多様な言語ニーズに対応できるようになります。
VinAI ゼネラルディレクター、ブイ・ハイ・フン氏。 |
Pho GPT誕生の意義について、VinAIのゼネラルディレクターであるブイ・ハイ・フン氏は、プロジェクトの目標はベトナム語とベトナム文化におけるChatGPTと同様のモデルを開発することだと述べました。Pho GPTは、前世代の言語技術よりも優れたベトナム語の文体を理解し、書き写す能力を備えています。また、このモデルはベトナム語のデータセットを用いてゼロから学習されており、世界中の他のモデルに依存せず、ベトナムの高度なコア技術を確実に習得しています。
Chat GPTの誕生が世界中を沸かせたちょうど1年後、ベトナムでPho GPTが登場したことは特筆に値します。Bui Hai Hung氏によると、VinAIは東南アジアでオープンソースコードによる大規模言語モデルをリリースした先駆者です。数週間後には、シンガポールでも同様の製品がリリースされました。
ベトナムのAIの向上
Pho GPT-7B5-Instruct バージョンとクローズド ソースの ChatGPT (GPT-3.5-turbo) およびその他のオープン ソース モデルとの比較結果によると、Pho GPT はほとんどの評価カテゴリで ChatGPT に次ぐ 2 位にランクされています。
Pho GPTは、他の言語モデル、特にChatGPTと比べて多くの違いがあります。ベトナム人の文脈、文法、語彙、表現を反映し、ベトナム語の自然な文体を理解し、書き取るように設計されています。ベトナムの文化、歴史、地理、社会、エンターテインメント、 スポーツなどに関するトピックでユーザーと対話できます。
さらに、Pho GPTはオープンソースで柔軟性に優れています。ユーザーは、プロプライエタリソフトウェアのソースに依存することなく、特に高度なセキュリティが求められるアプリケーションなど、カスタマイズされた独自のアプリケーションを開発できます。
同時に、Pho GPTは最新の最適化技術を用いたトレーニングによる高性能とコスト削減も重視しており、アプリケーションのサイズ削減と高速化に貢献します。また、Pho GPTはより小規模なコンピューティングプラットフォームでも実行できるため、コスト削減とリソース節約にも貢献します。
Pho GPTは、1GBのWikipediaテキストと、ニュースデータセットから重複を削除した40GBのバリアントを含む、最大41GBのベトナム語データウェアハウスでトレーニングされ、Mosaicml llmのllm-foundryライブラリを使用してトレーニングされ、記事、詩、歌、エッセイ、スピーチ、紹介など、ユーザーのリクエストに応じてテキストフラグメントを生成できます。また、Pho GPTは、短編小説、コメント、ことわざ、メッセージ、ツイート、ミームなど、創造的でユーモラスなコンテンツも作成できます。同時に、時事問題、教育、健康、旅行、料理、スポーツ、エンターテイメントなど、さまざまなトピックについてユーザーと対話します。さらに、Pho GPTは、ユーザーの質問に答えたり、情報、アドバイス、サポートを提供したり、質問に回答したりすることもできます。
さらに、Pho GPT は、公式文書、商用文書、学術文書、文学文書など、さまざまな種類のテキストまたはテキスト タイプをベトナム語から他の言語に翻訳することも、その逆の翻訳もできます。
もう 1 つの優れた機能は、Pho GPT がテキスト パッセージを分析および処理して、要約、分類、ラベル付け、情報の抽出、感情の検出、エラーの検出、文章スタイルの改善などを行うことです。
Pho GPT開発チームは今後もモデルの改良を続け、特に東南アジア地域でプロジェクトを他の言語に拡大していく予定だと述べた。
「Pho GPTの誕生は、ベトナムがこの先進技術分野で世界に『追いつく』機会を得た初めての出来事です。そして、ベトナム語に最適化され、世界から独立して、ベトナム人向けにオープンソースコードを備えた大規模な言語モデルを所有することができました。これは特にVin AI、そしてベトナム国民全体の誇りです」とVinAIの代表者は付け加えた。
今後のPho GPTの潜在力と発展機会について、計画投資省のトラン・ズイ・ドン副大臣は次のように強調しました。「AIは、ベトナムが力強く発展し、世界レベルにすぐに追いつく可能性を秘めた分野の一つです。省は、特にAIコミュニティ、そして科学技術コミュニティ全体を常に支援し、寄り添い、包括的でダイナミックなイノベーション・エコシステムを構築し、国全体の発展に貢献していきます。」
[広告2]
ソース
コメント (0)