オールAI企業は成功するでしょうか?写真: Business Insiders 。 |
最近の実験では、カーネギーメロン大学の研究者らが、従業員ポリシーと社内ウェブサイトを備えたTheAgentCompanyというソフトウェア会社をシミュレートした。ここで、すべての職員は AI エージェントであり、独自に推論してタスクを実行する計画を立てるように設計された人工知能です。
「労働者」を動かす人工知能ソフトウェアは、Google、OpenAI、Anthropic、Meta から提供されています。これらの AI は、財務アナリスト、ソフトウェア エンジニア、プロジェクト マネージャーなどさまざまな役割を担います。彼らは、人事から実際のエンジニアリングに至るまでの模擬部門で同僚として協力して働きます。
実験では、AI モデルがソフトウェア会社の実際の従業員の日常業務をシミュレートしたタスクを処理する必要がありました。研究チームは、AI が現実世界の環境でどの程度パフォーマンスを発揮できるか、また AI が人間に取って代わるだけの能力があるかどうかを正確に評価したいと考えていました。
処理する必要があるタスクは、ファイル フォルダーのナビゲート、新しいオフィスの「仮想」ツアー、収集したフィードバックに基づいたソフトウェア エンジニアのパフォーマンス レビューの作成など多岐にわたります。
あるタスクでは、AI は複数のディレクトリにアクセスして、コーヒーショップ チェーンのデータベースを分析する必要がありました。別の仕事では、36歳のエンジニアに関するフィードバックを集め、業績レビューを書くように求められました。
しかし、 Business Insidersによると、結果は悲惨なものだった。最もパフォーマンスが良かったモデルは、Anthropic の Claude 3.5 Sonnet でしたが、割り当てられたタスクの 24% しか完了しませんでした。この控えめなレベルのパフォーマンスでさえ、非常に高いコストがかかるとチームは指摘している。平均すると、クロードは各タスクを完了するのに約 30 ステップかかり、6 ドル以上の費用がかかります。
2位はGoogleのGemini 2.0 Flashです。平均的なツールでは、タスクを完了するのに 40 ステップかかりますが、成功率はわずか 11.4% です。最後に残ったのは、タスクの完了率が 1.7%、平均ステップ数が約 20 だった Amazon の Nova Pro v1 です。
研究者によると、この結果の理由は、AIエージェントが依然として共通の背景知識を欠いており、社会的スキルが弱いためだという。さらに、ナビゲーションとインターネットアクセスも非常に貧弱です。
チャットボットは、自動的により簡単な道を選ぶという自己欺瞞にも悩まされますが、最終的にはタスクの失敗につながります。たとえば、タスクを実行しているときに、AI エージェントは会社のチャット ルームで質問する適切な相手を見つけることができません。そこで彼らは、探している人の名前を使って別の物に名前を付けるという近道を思いつきました。
AI研究者のスティーブン・キャスパー氏は、AIエージェントの能力が過剰に宣伝されていると語る。 NvidiaのCEOであるジェンスン・フアン氏とOpenAIのCEOであるサム・アルトマン氏はともに、今年はAIが労働力に入り込み、企業の一部の部分を置き換えるだろうと述べている。
しかし、他の多くの研究ではその逆の結果が証明されています。ハーバード・ビジネス・スクールは、 AIは変化の激しい環境にうまく適応できないと指摘しています。 Langchainのレポートでは、ツールの使用や指示の遵守にも困難があることも判明しました。
AI エージェントは、いくつかの小さなタスクを適切に実行できるはずです。しかし、上記の研究結果によると、ソフトウェア開発など、人間にとってより困難なタスクでは、ロボットの成功率が高くなっています。
カーネギーメロン大学の実験の結果は、重要なタスクにおいて AI がまだ人間に取って代わっていないことを示しています。一方、人間は AI を活用して日常業務を最適化することができます。
出典: https://znews.vn/cong-ty-co-toan-bo-nhan-vien-la-ai-post1549608.html
コメント (0)