OpenAI не раскрывает подробностей о процессе обучения ChatGPT-4. Однако большие языковые модели (LLM) обычно обучаются на текстах, взятых из интернета, где английский является общепринятым языком. Около 93% данных для обучения ChatGPT-3 были на английском языке.

В Common Crawl, одном из наборов данных, на которых обучалась модель ИИ, английский язык составляет 47% корпуса, а другие европейские языки — ещё 38%. Для сравнения, китайский и японский вместе составляют всего 9%.

скриншот 2024 01 31 в 151709.png
Большая часть данных, используемых для обучения на степень магистра права, представлена на английском или других европейских языках.

Эта проблема характерна не только для ChatGPT, как обнаружили Натаниэль Робинсон, исследователь из Университета Джонса Хопкинса, и его коллеги. Все LLM-специалисты показали лучшие результаты на «высокоресурсных» языках, где обучающих данных было много, чем на «низкоресурсных» языках, где их было мало.

Это проблема для тех, кто надеется внедрить ИИ в бедные страны, чтобы улучшить всё — от образования до здравоохранения. Поэтому исследователи по всему миру работают над тем, чтобы сделать ИИ более многоязычным.

В сентябре прошлого года правительство Индии запустило чат-бот, который помогает фермерам оставаться в курсе полезной информации от правительства.

Шанкар Марувада из фонда EkStep, некоммерческой организации, которая помогла создать чат-бот, рассказал, что бот работает, комбинируя два типа языковых моделей, позволяя пользователям отправлять запросы на родном языке. Эти запросы на родном языке передаются в программу машинного перевода в индийском исследовательском центре, которая переводит их на английский, а затем передаёт ответ в LLM, где он обрабатывается. Наконец, ответ переводится обратно на родной язык пользователя.

Этот процесс может работать, но перевод запросов на «предпочитаемый» язык магистра права (LLM) — неуклюжий способ обойти эту проблему. Язык — отражение культуры и мировоззрения . В работе 2022 года Ребекки Джонсон, исследовательницы из Сиднейского университета, было обнаружено, что ChatGPT-3 выдаёт ответы по таким темам, как контроль над оружием и политика в отношении беженцев, сопоставимые с американскими ценностями, изложенными в «Всемирном обзоре ценностей».

В результате многие исследователи стремятся помочь магистрам права свободно владеть менее распространёнными языками. Технически один из подходов заключается в модификации токенизатора для соответствующего языка. Индийский стартап Sarvam AI разработал токенизатор, оптимизированный для хинди, или модель OpenHathi — LLM, оптимизированную для деванагари (индийского языка), что может значительно снизить стоимость ответов на вопросы.

Другой способ — улучшить наборы данных, на которых обучается LLM. В ноябре группа исследователей из Университета Мухаммеда бин Заида в Абу-Даби выпустила последнюю версию своей арабоязычной модели под названием «Jais». Она имеет в шесть раз меньше параметров, чем ChatGPT-3, но по производительности не уступает арабскому языку.

Тимоти Болдуин, президент Университета Мухаммеда бин Заида, отметил, что, хотя его команда оцифровала большую часть арабского текста, в модель всё же была включена часть английского. Некоторые концепции одинаковы во всех языках и могут быть изучены на любом языке.

Третий подход — тонкая настройка моделей после их обучения. И Jais, и OpenHathi используют ряд пар «вопрос-ответ», сгенерированных человеком. То же самое относится и к западным чат-ботам для предотвращения дезинформации.

Эрни Бот, магистр права из крупной китайской технологической компании Baidu, был доработан, чтобы ограничить высказывания, которые могут оскорбить правительство. Модели также могут обучаться на основе отзывов людей, когда пользователи оценивают ответы магистра права. Однако для многих языков в менее развитых регионах это сложно сделать из-за необходимости нанимать квалифицированных специалистов для критики ответов машины.

(По данным журнала «Экономист»)

Армия США использует ИИ для оценки цен на важнейшие минералы Армия США планирует разработать компьютерную программу, способную оценивать цены и прогнозировать поставки никеля, кобальта и других важнейших минералов.