Соответственно, даже самая производительная конфигурация модели искусственного интеллекта, которую они протестировали, GPT-4-Turbo от OpenAI, по-прежнему достигала лишь 79% правильных ответов, несмотря на прочтение всего профиля, и часто испытывала «галлюцинации» нереальных цифр или событий.
«Такой уровень производительности совершенно неприемлем», — заявил Ананд Каннаппан, соучредитель Patronus AI. «Чтобы система стала автоматизированной и готовой к использованию в производственной среде, процент правильных ответов должен быть гораздо выше».
Результаты исследования подчеркивают некоторые проблемы, с которыми сталкиваются модели ИИ, поскольку крупные компании, особенно в таких строго регулируемых отраслях, как финансы, стремятся внедрить передовые технологии в свою деятельность, будь то обслуживание клиентов или исследования.
«Иллюзия» финансовых данных
Возможность быстрого извлечения ключевых цифр и проведения анализа финансовой отчетности рассматривалась как одно из самых перспективных применений чат-ботов с момента выпуска ChatGPT в конце прошлого года.
Документы SEC содержат важные данные, и если бот сможет точно обобщать их содержание или быстро отвечать на вопросы об этом, это может дать пользователям преимущество в конкурентной финансовой отрасли.
За последний год Bloomberg LP разработала собственную модель ИИ для финансовых данных, а профессора бизнес-школ изучали, может ли ChatGPT анализировать финансовые заголовки.
Тем временем JPMorgan также разрабатывает автоматизированный инвестиционный инструмент на базе ИИ. Согласно недавнему прогнозу McKinsey, генеративный ИИ может дать банковской отрасли триллионы долларов в год.
Но впереди ещё долгий путь. Когда Microsoft впервые запустила Bing Chat с GPT от OpenAI, она использовала чат-бота для быстрого составления сводок пресс-релизов о доходах. Наблюдатели быстро заметили, что цифры, выдаваемые ИИ, были искажены или даже сфальсифицированы.
Те же данные, разные ответы
Одна из сложностей внедрения LLM в реальные продукты заключается в том, что алгоритмы не детерминированы, то есть нет гарантии, что они выдадут одинаковые результаты при одинаковых входных данных. Это означает, что компаниям необходимо проводить более тщательное тестирование, чтобы убедиться, что ИИ работает корректно, не отклоняется от темы и выдает достоверные результаты.
Искусственный интеллект Patronus создал набор из более чем 10 000 вопросов и ответов, взятых из документов, поданных в Комиссию по ценным бумагам и биржам США (SEC) крупными публичными компаниями, под названием FinanceBench. Набор данных включает в себя правильные ответы, а также точное местоположение в любом файле, где их можно найти.
Не все ответы можно взять прямо из текста, а некоторые вопросы требуют расчетов или легкого рассуждения.
Тест из 150 вопросов включал четыре модели LLM: GPT-4 и GPT-4-Turbo от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta.
В результате GPT-4-Turbo, получив доступ к основным документам SEC, достигла точности только в 85% (по сравнению с 88%, когда у нее не было доступа к данным), даже несмотря на то, что человек указывал мышкой на точный текст, чтобы ИИ нашел ответ.
Llama 2, модель искусственного интеллекта с открытым исходным кодом, разработанная Meta, продемонстрировала наибольшее количество «галлюцинаций», дав 70% неверных ответов и только 19% правильных при предоставлении доступа к части базовых документов.
Claude 2 от Anthropic показал хорошие результаты при использовании «длинного контекста», когда к вопросу прилагался практически полный текст соответствующей документации Комиссии по ценным бумагам и биржам США (SEC). Он смог ответить на 75% заданных вопросов, неправильно ответив на 21% и отказавшись отвечать на 3%. GPT-4-Turbo также показал хорошие результаты при использовании «длинного контекста», правильно ответив на 79% вопросов и неправильно ответив на 17% из них.
(По данным CNBC)
Крупные технологические компании стремятся инвестировать в стартапы в сфере искусственного интеллекта
Технология искусственного интеллекта производит революцию в стартапах электронной коммерции
Искусственный интеллект впервые успешно превратил человеческие мысли в реалистичные изображения
Источник
Комментарий (0)