DeepSeekはメディアに頻繁に登場するのではなく、新しいモデルの研究開発に注力している。写真: SCMP |
DeepSeekは清華大学の研究者と共同で、大規模言語モデル(LLM)の推論能力を向上させる新たな手法を導入しました。4月4日夜に発表された研究論文で発表されたこの手法により、LLMは一般的なクエリに対して、より正確かつ高速な結果を生成することができます。
この技術は、DeepSeekがこれまでに成功させた2つの手法を組み合わせたものです。1つは生成報酬モデリング(GRM)で、AIモデルが過去の結果に基づいて自己評価を行い、応答を改良することを可能にします。もう1つは自己原理に基づく批評チューニングです。
どちらの方法も AI の「自己学習」の側面に依存しており、人間による直接的なフィードバックやガイダンスへの依存を減らしながら、人間の期待に近い結果を提供することを目指しています。
研究者によると、DeepSeek-GRMは新しい手法であるにもかかわらず、優れた結果を達成しており、現在利用可能な最も有名で効果的なAIモデルに匹敵するとのこと。DeepSeekはGRMモデルをオープンソース化することを計画していますが、具体的な時期は明らかにされていません。
DeepSeek は、V3 プラットフォーム モデルと R1 推論モデルで世界的な影響を与えた後、オンライン科学アーカイブ arXiv でこの学術論文を公開し、同社の次の動きに対する関心を喚起しました。
ロイター通信は、R1の後継機となるDeepSeek-R2が、前機種の継続的な人気を踏まえ、4月に発売される可能性があると予測しています。DeepSeek-R1は、コストパフォーマンスに優れ、現在の主要機種に匹敵する性能を備えていたことから、テクノロジー業界で世界的なセンセーションを巻き起こしました。
DeepSeekはこれらの噂について沈黙を守っている。しかし、現地の情報筋によると、DeepSeekのカスタマーサービス担当者が企業顧客とのグループチャットでこの情報を否定したという。
2023年に起業家の梁文鋒氏によって杭州で設立されたDeepSeekは、ここ数ヶ月で急速に世界的な注目を集めています。しかし、同社は知名度にとらわれることなく、研究開発にリソースを集中させています。
DeepSeekは以前、V3モデルをアップグレードし、バージョンDeepSeek-V3-0324をリリースしました。発表によると、このアップデートでは、推論機能の強化、フロントエンドWebユーザーインターフェース開発への最適化、中国語のライティングスキルの向上などが特徴となっています。
2月には、同社は5つのコードリポジトリをオープンソース化し、「完全な透明性をもって進歩する」というコミットメントを表明しました。また同月、同社は「ネイティブ・スパース・アテンション」に関する技術研究を発表しました。これは、膨大なデータを処理するLLMのパフォーマンス向上に役立ちます。
米国が中国の技術開発を抑制しようとしている中、ディープシークは中国のAI産業のダイナミズムの象徴とみなされている。
出典: https://znews.vn/deepseek-gay-to-mo-post1543900.html






コメント (0)