GPT и мощные модели искусственного интеллекта все еще должны «сдаться» перед этим тестом

Соответственно, даже самая производительная конфигурация модели искусственного интеллекта, которую они протестировали, GPT-4-Turbo от OpenAI, по-прежнему достигала лишь 79% правильных ответов, несмотря на прочтение всего профиля, и часто испытывала «галлюцинации» нереальных цифр или событий.

«Такой уровень производительности совершенно неприемлем», — заявил Ананд Каннаппан, соучредитель Patronus AI. «Чтобы система стала автоматизированной и готовой к использованию в производственной среде, процент правильных ответов должен быть гораздо выше».

Результаты исследования подчеркивают некоторые проблемы, с которыми сталкиваются модели ИИ, поскольку крупные компании, особенно в таких строго регулируемых отраслях, как финансы, стремятся внедрить передовые технологии в свою деятельность, будь то обслуживание клиентов или исследования.

«Иллюзия» финансовых данных

Возможность быстрого извлечения ключевых цифр и проведения анализа финансовой отчетности рассматривалась как одно из самых перспективных применений чат-ботов с момента выпуска ChatGPT в конце прошлого года.

Документы SEC содержат важные данные, и если бот сможет точно обобщать их содержание или быстро отвечать на вопросы об этом, это может дать пользователям преимущество в конкурентной финансовой отрасли.

llm image 100941414 large.jpg — Искусственный интеллект испытывает трудности именно на этапе агрегации данных — в задаче, где от него ожидают наибольшей помощи для людей.

За последний год Bloomberg LP разработала собственную модель ИИ для финансовых данных, а профессора бизнес-школ изучали, может ли ChatGPT анализировать финансовые заголовки.

Тем временем JPMorgan также разрабатывает автоматизированный инвестиционный инструмент на базе ИИ. Согласно недавнему прогнозу McKinsey, генеративный ИИ может дать банковской отрасли триллионы долларов в год.

Но впереди ещё долгий путь. Когда Microsoft впервые запустила Bing Chat с GPT от OpenAI, она использовала чат-бота для быстрого составления сводок пресс-релизов о доходах. Наблюдатели быстро заметили, что цифры, выдаваемые ИИ, были искажены или даже сфальсифицированы.

Те же данные, разные ответы

Одна из сложностей внедрения LLM в реальные продукты заключается в том, что алгоритмы не детерминированы, то есть нет гарантии, что они выдадут одинаковые результаты при одинаковых входных данных. Это означает, что компаниям необходимо проводить более тщательное тестирование, чтобы убедиться, что ИИ работает корректно, не отклоняется от темы и выдает достоверные результаты.

Искусственный интеллект Patronus создал набор из более чем 10 000 вопросов и ответов, взятых из документов, поданных в Комиссию по ценным бумагам и биржам США (SEC) крупными публичными компаниями, под названием FinanceBench. Набор данных включает в себя правильные ответы, а также точное местоположение в любом файле, где их можно найти.

Не все ответы можно взять прямо из текста, а некоторые вопросы требуют расчетов или легкого рассуждения.

Тест из 150 вопросов включал четыре модели LLM: GPT-4 и GPT-4-Turbo от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta.

В результате GPT-4-Turbo, получив доступ к основным документам SEC, достигла точности только в 85% (по сравнению с 88%, когда у нее не было доступа к данным), даже несмотря на то, что человек указывал мышкой на точный текст, чтобы ИИ нашел ответ.

Llama 2, модель искусственного интеллекта с открытым исходным кодом, разработанная Meta, продемонстрировала наибольшее количество «галлюцинаций», дав 70% неверных ответов и только 19% правильных при предоставлении доступа к части базовых документов.

Claude 2 от Anthropic показал хорошие результаты при использовании «длинного контекста», когда к вопросу прилагался практически полный текст соответствующей документации Комиссии по ценным бумагам и биржам США (SEC). Он смог ответить на 75% заданных вопросов, неправильно ответив на 21% и отказавшись отвечать на 3%. GPT-4-Turbo также показал хорошие результаты при использовании «длинного контекста», правильно ответив на 79% вопросов и неправильно ответив на 17% из них.

(По данным CNBC)

Крупные технологические компании стремятся инвестировать в стартапы в сфере искусственного интеллекта

Появление технологий искусственного интеллекта потрясло мир технологий, но одно осталось неизменным — крупные технологические компании по-прежнему обладают абсолютной властью.

Технология искусственного интеллекта производит революцию в стартапах электронной коммерции

В конкурентной сфере электронной коммерции ИИ дает стартапам возможность использовать технологии для обслуживания клиентов и оптимизации операций.

Искусственный интеллект впервые успешно превратил человеческие мысли в реалистичные изображения

Благодаря технологиям искусственного интеллекта (ИИ) новые открытия в исследовании человеческого мышления можно сравнить с открытием совершенно нового мира внутри нас.

Источник