OpenAI не розкриває багато інформації про те, як навчався ChatGPT-4. Однак моделі великих мов (LLM) зазвичай навчаються на тексті, зібраному з Інтернету, де англійська мова є лінгва франка. Близько 93% навчальних даних ChatGPT-3 надано англійською мовою.

У Common Crawl, лише одному з наборів даних, на яких навчалася модель штучного інтелекту, англійська мова становить 47% корпусу, а інші європейські мови — ще 38%. Для порівняння, китайська та японська разом узяті складають лише 9%.

знімок екрана 2024 01 31 о 151709.png
Більшість даних, що використовуються для навчання LLM, надаються англійською або іншими європейськими мовами.

Ця проблема не обмежується лише ChatGPT, як виявили Натаніель Робінсон, дослідник з Університету Джонса Гопкінса, та його колеги. Усі LLM працювали краще на мовах з «високими ресурсами», де навчальних даних було багато, ніж на мовах з «низькими ресурсами», де їх було мало.

Це проблема для тих, хто сподівається запровадити штучний інтелект у бідних країнах, щоб покращити сфери діяльності – від освіти до охорони здоров’я. Як наслідок, дослідники в усьому світі працюють над тим, щоб зробити штучний інтелект більш багатомовним.

У вересні минулого року уряд Індії запустив чат-бота, щоб допомогти фермерам бути в курсі корисної інформації від уряду.

Шанкар Марувада з EkStep Foundation, некомерційної організації, яка допомогла створити чат-бота, сказав, що бот працює, поєднуючи два типи мовних моделей, що дозволяє користувачам надсилати запити рідною мовою. Ці запити рідною мовою передаються програмному забезпеченню машинного перекладу в індійському дослідницькому центрі, яке перекладає їх англійською мовою, перш ніж переслати відповідь до LLM, яка її обробляє. Зрештою, відповідь перекладається назад рідною мовою користувача.

Цей процес може спрацювати, але переклад запитів на «бажану» мову LLM є незграбним обхідним шляхом. Мова є відображенням культури та світогляду . У статті 2022 року Ребекки Джонсон, дослідниці з Університету Сіднея, було виявлено, що ChatGPT-3 дав відповіді на такі теми, як контроль над зброєю та політика щодо біженців, які були порівнянні з американськими цінностями, вираженими у Всесвітньому опитуванні цінностей.

В результаті багато дослідників намагаються зробити LLM вільно володіючими менш поширеними мовами. Технічно, один із підходів полягає в модифікації токенайзера для мови. Індійський стартап під назвою Sarvam AI написав токенайзер, оптимізований для хінді, або модель OpenHathi – Devanagari language optimized LLM (Індія), який може значно зменшити вартість відповідей на запитання.

Інший спосіб — покращити набори даних, на яких навчається LLM. У листопаді команда дослідників з Університету Мохамеда бін Заїда в Абу-Дабі випустила останню версію своєї арабомовної моделі під назвою «Jais». Вона має вдвічі меншу кількість параметрів, ніж ChatGPT-3, але працює приблизно так само добре з арабською мовою.

Тімоті Болдвін, президент Університету Мохамеда бін Заїда, зазначив, що хоча його команда оцифрувала багато арабського тексту, деякий англійський текст все ж був включений до моделі. Деякі поняття однакові всіма мовами і можуть бути вивчені будь-якою мовою.

Третій підхід полягає в точному налаштуванні моделей після їх навчання. Як Jais, так і OpenHathi мають низку пар питань і відповідей, згенерованих людиною. Те саме стосується західних чат-ботів, щоб запобігти дезінформації.

Ерні Бот, магістр права з Baidu, великої китайської технологічної компанії, був налаштований обмежувати слова, які можуть образити уряд. Моделі також можуть навчатися на відгуках людей, коли користувачі оцінюють відповіді LLM. Але це важко зробити для багатьох мов у менш розвинених регіонах через необхідність наймати кваліфікованих людей для критики відповідей машини.

(За даними Economist)

Армія США використовує штучний інтелект для оцінки цін на критично важливі мінерали Армія США планує розробити комп'ютерну програму, здатну оцінювати ціни та прогнозувати поставки нікелю, кобальту та інших критично важливих мінералів.