Агенты ИИ считаются следующим прорывом в области ИИ, обещающим полностью изменить способ взаимодействия людей с Интернетом.
В последние дни китайский AI Agent Manus вызвал переполох в мировом технологическом сообществе. По словам разработчика, инструмент может выполнять сложные задачи, такие как сканирование профилей кандидатов, планирование маршрутов путешествий и анализ акций, когда пользователи дают базовые инструкции.
До того, как Manus запустил AI Agent, американский гигант ИИ OpenAI представил Operator пользователям ChatGPT Pro в США. Согласно OpenAI, этот агент ИИ может выполнять простые задачи от имени своего владельца в браузере, например, бронировать билеты на концерты или размещать онлайн-заказы.
Operator основан на новой модели Computer-Using Agent (CUA), которая построена на большой мультимодальной языковой модели GPT-4o. Исследователь OpenAI Яш Кумар признает, что она все еще находится на ранних стадиях и все еще имеет недостатки.
Как и другие агенты ИИ, Operator делает снимок экрана компьютера, сканируя пиксели, чтобы определить, какие действия предпринять. CUA, модель, лежащая в его основе, обучена взаимодействовать с графическими интерфейсами, такими как кнопки, меню и текстовые диалоговые окна, которые знакомы людям.
По словам Рейитиро Накано, другого ученого OpenAI, традиционные модели используют программное обеспечение через специализированные API (интерфейсы прикладного программирования), что приводит ко многим ограничениям.
CUA также разбивает задачи на более мелкие шаги и пытается выполнить их по одному за раз, а также возвращается к началу, если что-то пойдет не так. В настоящее время Operator может делать только некоторые вещи в своем собственном браузере.
В будущем OpenAI планирует расширить возможности CUA с помощью API (интерфейса прикладного программирования), который позволит разработчикам писать собственные приложения на его основе.
OpenAI также проверила безопасность CUA, используя Red Team для определения того, что произойдет, если пользователь попросит AI-агента выполнить неприемлемые задачи (например, производство биологического оружия).
Журналист New York Times Кевин Руз попросил Operator выполнить для него ряд задач, включая заказ шариков мороженого через Amazon, покупку нового доменного имени и его перенастройку, бронирование столика в ресторане на 14 февраля и запись на стрижку.
Автор отметил, что ИИ-агент выполнял большую часть работы самостоятельно, но иногда ему приходилось «спасать» его после некоторых неудачных попыток.
Руз описывает Operator как нечто похожее на обычный ChatGPT, за исключением того, что при получении задания ИИ-агент открывает мини-окно браузера, вводит Amazon.com в адресную строку и начинает нажимать кнопки, чтобы выполнить действие.
В ходе процесса он задаст несколько вопросов, чтобы прояснить намерения владельца, например, время доставки... Убедившись, что сделан правильный выбор, он отправит окончательное подтверждение, поместит товар в корзину и приступит к оформлению заказа.
Самым важным моментом здесь является то, что пользователю не нужно следить за ним, так как он работает в фоновом режиме.
Однако Оператор также провалил некоторые другие миссии, поскольку был заблокирован на некоторых сайтах, таких как Reddit, YouTube, или не прошел тест CAPTCHA.
В настоящее время не существует «стандартного» определения AI Agent, но, по словам Рудины Сесери, основателя и менеджера венчурной компании Glasswing, AI Agent — это интеллектуальная программная система, предназначенная для понимания операционной среды, рассуждений, принятия решений и действий для автоматического достижения целей.
Для этого AI Agent использует множество методов AI/ML, таких как обработка естественного языка, машинное обучение, компьютерное зрение.
Аарон Леви, основатель и генеральный директор Box, отмечает, что со временем, по мере того как возможности ИИ будут расти, ИИ-агенты смогут выполнять больше работы для людей.
Джаред Спатаро, директор по маркетингу AI at Work в Microsoft, рассматривает AI Agents как «новые приложения в мире, управляемом ИИ». Они добавляют новые функции для решения «самых больших болевых точек» каждого человека на рабочем месте, чтобы добиться реальных бизнес-результатов.
Агенты ИИ расширяют возможности генеративного ИИ, не только помогая людям, но и работая с ними или от их имени. По данным IBM, агенты ИИ действуют на основе полученной информации.
Поскольку у него нет всеобъемлющей базы знаний для решения каждой задачи, он будет использовать доступные инструменты, включая внешние наборы данных, веб-поиск, API или даже других агентов ИИ.
Собрав недостающую информацию, агент обновит свои знания. Это значит, что на каждом шагу он будет переоценивать свой план действий и корректировать себя.
Пока еще рано говорить, представляют ли агенты ИИ угрозу для людей. Но нетрудно представить себе ближайшее будущее, в котором большая часть сети будет заполнена роботами, которые будут общаться друг с другом, совершать покупки и писать электронные письма от имени своих владельцев.
«Интернет без дронов» постепенно становится реальностью, поэтому «кликайте, пока можете», заключает обозреватель New York Times Руз.
Источник: https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html
Комментарий (0)