Соответственно, даже самая производительная конфигурация модели искусственного интеллекта, которую они протестировали, GPT-4-Turbo от OpenAI, все еще достигала лишь 79% правильных ответов, несмотря на прочтение всего профиля и частые «галлюцинации» нереальных цифр или событий.

«Такой уровень производительности совершенно неприемлем», — заявил Ананд Каннаппан, соучредитель Patronus AI. «Чтобы система стала автоматизированной и готовой к использованию в производственной среде, процент правильных ответов должен быть гораздо выше».

Результаты исследования подчеркивают некоторые проблемы, с которыми сталкиваются модели ИИ, поскольку крупные компании, особенно в таких жестко регулируемых отраслях, как финансы, стремятся внедрить передовые технологии в свою деятельность, будь то обслуживание клиентов или исследования.

«Иллюзия» финансовых данных

Возможность быстрого извлечения ключевых цифр и проведения анализа финансовой отчетности рассматривалась как одно из самых перспективных применений чат-ботов с момента выпуска ChatGPT в конце прошлого года.

Документы SEC содержат важные данные, и если бот сможет точно обобщать их содержание или быстро отвечать на вопросы об этом, это может дать пользователям преимущество в конкурентной финансовой отрасли.

llm image 100941414 large.jpg
Искусственный интеллект испытывает трудности именно на этапе синтеза данных — в задаче, где от него ожидают наибольшей помощи людям.

За последний год Bloomberg LP разработала собственную модель ИИ для финансовых данных, а профессора бизнес-школ изучали, может ли ChatGPT анализировать финансовые заголовки.

Тем временем JPMorgan также разрабатывает автоматизированный инвестиционный инструмент на базе ИИ. Согласно недавнему прогнозу McKinsey, генеративный ИИ может дать банковской отрасли триллионы долларов в год.

Но впереди ещё долгий путь. Когда Microsoft впервые запустила Bing Chat с GPT от OpenAI, она использовала чат-бота для быстрого составления сводок пресс-релизов о доходах. Наблюдатели быстро заметили, что цифры, выдаваемые ИИ, были искажены или даже сфальсифицированы.

Те же данные, разные ответы

Одна из сложностей внедрения LLM в реальные продукты заключается в том, что алгоритмы недетерминированы, то есть нет гарантии, что они выдадут одинаковые результаты при одинаковых входных данных. Это означает, что компаниям необходимо проводить более тщательное тестирование, чтобы убедиться, что ИИ работает корректно, не отклоняется от темы и выдаёт надёжные результаты.

Искусственный интеллект Patronus создал набор из более чем 10 000 вопросов и ответов, взятых из документов, поданных в Комиссию по ценным бумагам и биржам США (SEC) крупными публичными компаниями, под названием FinanceBench. Набор данных включает в себя правильные ответы, а также точное местоположение в любом файле, где их можно найти.

Не все ответы можно взять прямо из текста, а некоторые вопросы требуют расчетов или легкого рассуждения.

Тест из 150 вопросов включал четыре модели LLM: GPT-4 и GPT-4-Turbo от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta.

В результате GPT-4-Turbo при наличии доступа к основным документам SEC достигла точности только в 85% (по сравнению с 88% неверных ответов при отсутствии доступа к данным), несмотря на то, что для нахождения ответа ИИ использовал человеческий указатель мыши.

Llama 2, модель искусственного интеллекта с открытым исходным кодом, разработанная Meta, продемонстрировала наибольшее количество «галлюцинаций», отвечая неправильно в 70% случаев и правильно — только в 19% случаев, когда ей предоставлялся доступ к части базовых документов.

Claude 2 от Anthropic показал хорошие результаты при использовании «длинного контекста», когда к вопросу прилагался практически полный текст соответствующей документации Комиссии по ценным бумагам и биржам США (SEC). Он смог ответить на 75% заданных вопросов, неправильно ответив на 21% и отказавшись отвечать на 3%. GPT-4-Turbo также показал хорошие результаты при использовании «длинного контекста», правильно ответив на 79% вопросов и неправильно ответив на 17% из них.

(По данным CNBC)

Гонка крупных технологических компаний за инвестиции в стартапы в сфере ИИ

Гонка крупных технологических компаний за инвестиции в стартапы в сфере ИИ

Появление технологий искусственного интеллекта потрясло мир технологий, но одно осталось неизменным — крупные технологические компании по-прежнему обладают абсолютной властью.
Технология искусственного интеллекта производит революцию в стартапах электронной коммерции

Технология искусственного интеллекта производит революцию в стартапах электронной коммерции

В конкурентной сфере электронной коммерции ИИ дает стартапам возможность использовать технологии для обслуживания клиентов и оптимизации операций.
Искусственный интеллект впервые успешно превратил человеческие мысли в реалистичные изображения

Искусственный интеллект впервые успешно превратил человеческие мысли в реалистичные изображения

Благодаря технологиям искусственного интеллекта (ИИ) новые открытия в исследовании человеческого мышления можно сравнить с открытием совершенно нового мира внутри нас.