Az OpenAI nem sokat árult el arról, hogyan képezték ki a ChatGPT-4-et. A nagy nyelvi modelleket (LLM) azonban jellemzően az internetről kinyert szövegeken tanítják, ahol az angol a közös nyelv. A ChatGPT-3 betanítási adatainak körülbelül 93%-a angol nyelvű.

A Common Crawl adatkészletek egyikében, amelyeken a mesterséges intelligencia modellt képezték, az angol a korpusz 47%-át teszi ki, míg más európai nyelvek további 38%-ot. Ezzel szemben a kínai és a japán nyelv együttesen mindössze 9%-ot tesz ki.

képernyőkép 2024.01.31-én, 151709.png-nél
Az LLM képzéshez felhasznált adatok nagy része angolul vagy más európai nyelven található.

Ez nem csak a ChatGPT-re korlátozódó probléma, ahogy azt Nathaniel Robinson, a Johns Hopkins Egyetem kutatója és kollégái is megállapították. Minden LLM jobban teljesített a „sok erőforrást igénylő” nyelveken, ahol bőséges volt a betanítási adat, mint az „alacsony erőforrást igénylő” nyelveken, ahol szűkösen voltak.

Ez problémát jelent azok számára, akik a mesterséges intelligenciát a szegény országokba szeretnék bevezetni, hogy az oktatástól az egészségügyig minden területen javítsanak. Ennek eredményeként a kutatók világszerte azon dolgoznak, hogy a mesterséges intelligencia többnyelvűbb legyen.

Tavaly szeptemberben az indiai kormány elindított egy chatbotot, hogy segítsen a gazdáknak naprakészek maradni a kormánytól származó hasznos információkkal.

Shankar Maruwada, az EkStep Alapítvány, a chatbot fejlesztésében segédkező nonprofit szervezet munkatársa elmondta, hogy a bot kétféle nyelvi modell kombinálásával működik, lehetővé téve a felhasználók számára, hogy anyanyelvükön küldjenek be lekérdezéseket. Ezeket az anyanyelvi lekérdezéseket egy indiai kutatóintézet gépi fordítószoftverének továbbítják, amely lefordítja őket angolra, mielőtt továbbítja a választ az LLM-nek, amely feldolgozza a választ. Végül a választ visszafordítják a felhasználó anyanyelvére.

Ez a folyamat működhet, de a lekérdezések LLM „preferált” nyelvére való lefordítása nehézkes megkerülő megoldás. A nyelv a kultúra és a világnézet tükröződése. Rebecca Johnson, a Sydney-i Egyetem kutatójának 2022-es tanulmánya megállapította, hogy a ChatGPT-3 olyan témákban, mint a fegyverellenőrzés és a menekültpolitika, olyan válaszokat adott, amelyek összehasonlíthatók voltak a World Values ​​​​Survey-ben kifejezett amerikai értékekkel.

Ennek eredményeként számos kutató próbálja a jogtudósokat (LLM) folyékonyan beszélni a ritkábban használt nyelveken. Technikailag az egyik megközelítés a nyelv tokenizerének módosítása. Egy Sarvam AI nevű indiai startup írt egy hindi nyelvre optimalizált tokenizert, vagy OpenHathi modellt – Devanagari nyelvre optimalizált LLM-et (India), amely jelentősen csökkentheti a kérdések megválaszolásának költségeit.

Egy másik lehetőség az LLM képzéséhez használt adatkészletek fejlesztése. Novemberben az Abu Dhabiban található Mohamed bin Zayed Egyetem kutatócsoportja kiadta arab nyelvű modelljének legújabb verzióját, a „Jais”-t. Hatodik számú paraméterrel rendelkezik, mint a ChatGPT-3, de arabul körülbelül ugyanolyan jól teljesít.

Timothy Baldwin, a Mohamed bin Zayed Egyetem elnöke megjegyezte, hogy bár csapata rengeteg arab szöveget digitalizált, néhány angol szöveg is szerepelt a modellben. Egyes fogalmak minden nyelven megegyeznek, és bármelyik nyelven elsajátíthatók.

Egy harmadik megközelítés a modellek finomhangolása a betanításuk után. Mind a Jais, mind az OpenHathi számos ember által generált kérdés-válasz párral rendelkezik. Ugyanez vonatkozik a nyugati chatbotokra is a félretájékoztatás megelőzése érdekében.

Ernie Botot, a Baidu nevű nagy kínai technológiai vállalat jogi doktorátusát (LLM) úgy hangolták, hogy korlátozza a kormányt esetleg sértő beszédet. A modellek az emberi visszajelzésekből is tanulhatnak, a felhasználók értékelik az LLM válaszait. Ez azonban sok nyelv esetében nehézkes a kevésbé fejlett régiókban, mivel képzett embereket kell felvenni a gép válaszainak kritikájára.

(Az Economist szerint)

Az amerikai hadsereg mesterséges intelligenciát használ a kritikus ásványok árának becslésére Az amerikai hadsereg egy olyan számítógépes program fejlesztését tervezi, amely képes megbecsülni a nikkel, a kobalt és más kritikus ásványok árát és előre jelezni azok készleteit.