AIエージェントと「ドローンインターネット」革命

AI エージェントは AI における次のブレークスルーと考えられており、人々がインターネットとやりとりする方法を完全に変える可能性を秘めています。

近年、中国のAIエージェント「マヌス」が世界のテクノロジーコミュニティで大きな話題を呼んでいる。開発者によると、このツールはユーザーが基本的な指示を与えるだけで、候補者のプロフィールをスキャンしたり、旅行プランを立てたり、株価を分析したりするといった複雑なタスクを実行できるという。

ManusがAI Agentをリリースする前に、アメリカのAI大手OpenAIが米国のChatGPT ProユーザーにOperatorを導入しました。OpenAIによると、このAIエージェントは、コンサートチケットの予約やオンライン注文といった、ブラウザ上でユーザーに代わって簡単なタスクを実行できます。

Operatorは、大規模なマルチモーダル言語モデルGPT-4oを基盤とするComputer-Using Agent（CUA）と呼ばれる新しいモデルに基づいています。OpenAIの研究者であるYash Kumar氏は、このモデルはまだ初期段階にあり、欠点もあることを認めています。

他のAIエージェントと同様に、Operatorはコンピューター画面のスクリーンショットを撮り、ピクセルをスキャンして必要なアクションを決定します。その基盤となるモデルであるCUAは、人間に馴染みのあるボタン、メニュー、テキストダイアログボックスなどのグラフィカルインターフェースと対話するようにトレーニングされています。

OpenAI のもう一人の科学者である中野礼一郎氏によると、従来のモデルは専用の API (アプリケーションプログラミングインターフェイス) を介してソフトウェアを使用するため、多くの制限が生じます。

CUAはタスクを小さなステップに分割し、一つずつ完了させようとします。また、何か問題が発生した場合は最初に戻って作業を進めることもできます。現在、Operatorは一部の操作を専用のブラウザでのみ実行できます。

OpenAI は将来、開発者が CUA をベースに独自のアプリケーションを作成できるようにする API (アプリケーションプログラミングインターフェイス) を通じて CUA の機能を拡張する予定です。

OpenAIは、レッドチームを使用してCUAの安全性もテストし、ユーザーがAIエージェントに許容されないタスク（生物兵器の製造など）を依頼した場合に何が起こるかを判断しました。

ニューヨークタイムズの記者ケビン・ルース氏はオペレーター氏に、アマゾンでアイスクリームを注文すること、新しいドメイン名を購入して再設定すること、2月14日のレストランを予約すること、ヘアカットの予約など、さまざまなことを依頼した。

筆者は、AIエージェントがほとんどの作業を自力で行ったが、何度か失敗した後には「救助」しなければならなかったとコメントした。

Roose 氏は、Operator は通常の ChatGPT に似ているが、タスクが与えられると AI エージェントがミニブラウザウィンドウを開き、アドレスバーに Amazon.com と入力してクリックし、アクションを開始する点が異なると説明しています。

このプロセスでは、配達時間など、所有者の意図を明確にするためにいくつかの質問が行われます...正しい選択が行われたことを確認した後、最終確認が送信され、アイテムがカートに入れられ、注文に進みます。

ここで最も重要な点は、バックグラウンドで動作するため、ユーザーが監視する必要がないことです。

しかし、オペレーターは、Reddit、YouTube などの一部の Web サイトでブロックされたり、CAPTCHA テストに失敗したために、他のいくつかのミッションにも失敗しました。

現在、AIエージェントの「標準的な」定義はありませんが、ベンチャーキャピタル会社Glasswingの創設者兼マネージャーであるルディナ・セセリ氏によると、AIエージェントは、動作環境を理解し、推論し、意思決定を行い、目標を自動的に達成するために行動するように設計されたインテリジェントなソフトウェアシステムです。

AI エージェントは、自然言語処理、機械学習、コンピュータービジョンなど、多くの AI/ML 技術を使用してこれを実現します。

Box の創設者兼 CEO であるアーロン・レヴィ氏は、時間の経過とともに AI の能力が高まり、AI エージェントが人間に代わってより多くの作業を行えるようになると指摘しています。

マイクロソフトのAI at Workマーケティングディレクター、ジャレッド・スパタロ氏は、AIエージェントを「AI主導の世界における新たなアプリケーション」と捉えています。AIエージェントは、職場における各個人の「最大の悩み」を解決するための新機能を追加し、真のビジネス成果をもたらします。

AIエージェントは、人間を支援するだけでなく、人間と協力したり、人間に代わって作業したりすることで、生成型AIの力をさらに高めます。IBMによると、AIエージェントは受信した情報に基づいて行動します。

すべてのタスクを処理できる包括的な知識ベースがないため、外部データセット、Web 検索、API、さらには他の AI エージェントなどの利用可能なツールを使用します。

不足している情報を収集した後、エージェントは知識をアップグレードします。つまり、各ステップで行動計画を再評価し、自らを調整します。

AIエージェントが人間にとって脅威となるかどうかを判断するのは時期尚早です。しかし、近い将来、ウェブの大部分がロボットで埋め尽くされ、互いに会話したり、買い物をしたり、所有者に代わってメールを書いたりするようになることは容易に想像できます。

「ドローンのないインターネット」は徐々に現実のものとなりつつあるので、 「できるうちにクリックしましょう」とニューヨークタイムズのコラムニスト、ルース氏は結論づけている。

[広告2]
出典: https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html