Добьется ли успеха компания, полностью использующая ИИ? Фото: Business Insiders . |
В недавнем эксперименте исследователи из Университета Карнеги — Меллона смоделировали компанию-разработчика программного обеспечения под названием TheAgentCompany, имеющую политику для сотрудников и внутренний веб-сайт. В которой весь персонал является агентами ИИ, то есть искусственным интеллектом, способным рассуждать и планировать выполнение задач самостоятельно.
Программное обеспечение искусственного интеллекта, на котором работают «работники», поставляется Google, OpenAI, Anthropic и Meta. Эти ИИ берут на себя различные роли: от финансовых аналитиков и инженеров-программистов до руководителей проектов. Они работают вместе как коллеги в моделируемых отделах — от отдела кадров до реального инжиниринга.
В ходе эксперимента модель ИИ должна была решать задачи, имитирующие повседневные задачи реальных сотрудников компании-разработчика программного обеспечения. Команда хотела точно оценить, насколько хорошо ИИ может работать в реальных условиях и достаточно ли он способен заменить людей.
Задачи, которые необходимо выполнить, варьируются от навигации по папкам с файлами, «виртуального» осмотра нового офиса до написания обзоров производительности для инженеров-программистов на основе собранных отзывов.
В одной из задач ИИ должен был получить доступ к нескольким каталогам для анализа базы данных сети кофеен. На другой работе им было поручено собрать отзывы о 36-летнем инженере и написать характеристики его работы.
Однако, по данным Business Insiders , результаты оказались удручающими. Самая производительная модель, Claude 3.5 Sonnet от Anthropic, выполнила лишь 24% поставленных задач. Команда отмечает, что даже этот скромный уровень производительности обходится очень дорого. В среднем Клоду требуется около 30 шагов и более 6 долларов на выполнение каждого задания.
На втором месте — Gemini 2.0 Flash от Google. В среднем инструменту требуется 40 шагов для выполнения задачи, но показатель успеха составляет всего 11,4%. Последнее место занял Nova Pro v1 от Amazon с 1,7% выполненных задач и средним показателем почти 20 шагов.
По мнению исследователей, причина такого результата в том, что у агентов ИИ по-прежнему отсутствуют общие фоновые знания и слабые социальные навыки. Кроме того, навигация и доступ в Интернет также очень плохие.
Чат-боты также борются с самообманом, который автоматически выбирает более легкий путь, но в конечном итоге приводит к провалу задачи. Например, при выполнении задания ИИ-агент не может найти нужного человека в чате компании, которому можно задать вопрос. Поэтому они придумали короткий путь: использовать имя человека, которого они ищут, чтобы назвать другой объект.
Стивен Каспер, исследователь искусственного интеллекта, говорит, что люди переоценивают возможности агентов искусственного интеллекта. Дженсен Хуан, генеральный директор Nvidia, и Сэм Альтман, генеральный директор OpenAI, заявили, что в этом году ИИ войдет в рабочую силу, заменив некоторые подразделения компании.
Однако многие другие исследования доказали обратное. Гарвардская школа бизнеса отметила, что ИИ плохо адаптируется в условиях резких изменений. В отчете Langchain также говорится, что у них возникли трудности с использованием инструментов и выполнением инструкций.
Предполагается, что агенты ИИ смогут хорошо выполнять некоторые небольшие задачи. Однако, согласно результатам вышеуказанного исследования, они демонстрируют более высокий уровень успеха в задачах, которые сложнее для людей, таких как разработка программного обеспечения.
Результаты эксперимента Университета Карнеги — Меллона показывают, что ИИ пока не заменил людей в выполнении важных задач. С другой стороны, люди могут использовать ИИ для оптимизации своей повседневной работы.
Источник: https://znews.vn/cong-ty-co-toan-bo-nhan-vien-la-ai-post1549608.html
Комментарий (0)