DeepSeekは、メディアに頻繁に登場するよりも、新しいモデルの研究開発に注力している。写真: SCMP |
DeepSeekは、清華大学の研究者と共同で、大規模言語モデル(LLM)の推論能力を向上させる新しい手法を発表しました。4月4日夜に発表された研究論文によると、この手法はLLMが一般的なクエリに対してより優れた、より高速な結果を生成するのに役立ちます。
この技術は、DeepSeekがこれまで成功を収めてきた2つの手法を組み合わせたものです。1つは生成報酬モデリング(GRM)で、AIモデルが過去の結果に基づいて応答を自己評価し、改善することを可能にします。もう1つは自己原則に基づく批評チューニングです。
どちらの方法も、AIの「自己学習」という側面を利用しており、人間の直接的なフィードバックや指導への依存度を低減しつつ、人間の期待により近い結果をもたらすことを目指している。
研究者によると、DeepSeek-GRMは新しい手法であるにもかかわらず、優れた結果を達成し、現在利用可能な最も有名で効果的なAIモデルに匹敵する性能を発揮するとのことです。DeepSeekはGRMモデルをオープンソース化する予定ですが、具体的な時期は明らかにされていません。
DeepSeekは、V3プラットフォームモデルとR1推論モデルで世界的なインパクトを与えた後、オンライン科学アーカイブarXivにこの学術論文を発表し、同社の次の動きへの関心を高めた。
ロイター通信は、前機種であるDeepSeek-R1の根強い人気を鑑み、後継機種となるDeepSeek-R2が4月に発売される可能性があると予測している。DeepSeek-R1は、コストパフォーマンスに優れ、現行の主要機種にも引けを取らない性能で、テクノロジー業界で世界的なセンセーションを巻き起こした。
DeepSeekはこれらの噂について沈黙を守っている。しかし、現地の情報筋によると、DeepSeekのカスタマーサービス担当者が、法人顧客とのグループチャットでこの情報を否定したという。
2023年に起業家の梁文峰氏によって杭州で設立されたDeepSeekは、ここ数ヶ月で急速に世界的な注目を集めている。しかし、同社は世間の知名度を利用するのではなく、研究開発にリソースを集中させている。
以前、DeepSeekはV3モデルをアップグレードし、バージョンDeepSeek-V3-0324をリリースしました。発表によると、このアップデートでは推論機能の強化、フロントエンドWebユーザーインターフェース開発の最適化、中国語の文字認識機能の向上などが実現されています。
2月には、同社は5つのコードリポジトリをオープンソース化し、「完全な透明性をもって進歩する」というコミットメントを改めて表明した。また同月、同社は「ネイティブスパースアテンション」に関する技術研究を発表した。これは、膨大な量のデータを処理する際のLLMのパフォーマンス向上に役立つ。
DeepSeekは、米国が中国の技術開発を抑制しようとしている時期に、中国のAI産業の活力を象徴するものと見なされている。
出典:https://znews.vn/deepseek-gay-to-mo-post1543900.html










コメント (0)