OpenAI heeft niet veel onthuld over hoe ChatGPT-4 is getraind. Grote taalmodellen (LLM's) worden echter meestal getraind met tekst die van het internet is gehaald, waar Engels de lingua franca is. Ongeveer 93% van de trainingsdata van ChatGPT-3 is in het Engels.

In Common Crawl, slechts één van de datasets waarop het AI-model is getraind, maakt Engels 47% van het corpus uit, gevolgd door andere Europese talen met nog eens 38%. Chinees en Japans vormen daarentegen samen slechts 9%.

screenshot 2024 01 31 om 151709.png
De meeste gegevens die voor LLM-opleidingen worden gebruikt, zijn in het Engels of andere Europese talen.

Dit probleem beperkt zich niet alleen tot ChatGPT, zoals Nathaniel Robinson, onderzoeker aan de Johns Hopkins University, en zijn collega's ontdekten. Alle LLM's presteerden beter op talen met veel resources, waar trainingsdata overvloedig aanwezig was, dan op talen met weinig resources, waar deze schaars waren.

Dit is een probleem voor degenen die AI naar arme landen willen brengen om onderwijs en gezondheidszorg te verbeteren. Daarom werken onderzoekers wereldwijd aan het meertalig maken van AI.

Afgelopen september lanceerde de Indiase overheid een chatbot om boeren op de hoogte te houden van nuttige informatie van de overheid.

Shankar Maruwada van EkStep Foundation, de non-profitorganisatie die de chatbot heeft helpen bouwen, zegt dat de bot werkt door twee soorten taalmodellen te combineren, waardoor gebruikers vragen in hun moedertaal kunnen stellen. Deze vragen in hun moedertaal worden doorgegeven aan machinevertaalsoftware in een Indiaas onderzoekscentrum, dat ze naar het Engels vertaalt en het antwoord vervolgens doorstuurt naar LLM, dat het antwoord verwerkt. Ten slotte wordt het antwoord terugvertaald naar de moedertaal van de gebruiker.

Dit proces kan werken, maar het vertalen van vragen naar de 'voorkeurstaal' van LLM is een omslachtige oplossing. Taal weerspiegelt cultuur en wereldbeeld . Een paper uit 2022 van Rebecca Johnson, onderzoeker aan de Universiteit van Sydney, toonde aan dat ChatGPT-3 antwoorden produceerde over onderwerpen zoals wapenbeheersing en vluchtelingenbeleid die vergelijkbaar waren met de Amerikaanse waarden die in de World Values ​​Survey tot uitdrukking kwamen.

Daarom proberen veel onderzoekers LLM's vloeiend te maken in minder gangbare talen. Technisch gezien is een aanpak het aanpassen van de tokenizer voor de taal. Een Indiase startup genaamd Sarvam AI heeft een tokenizer ontwikkeld die geoptimaliseerd is voor Hindi, of OpenHathi-model – een Devanagari-taalgeoptimaliseerde LLM (India) die de kosten voor het beantwoorden van vragen aanzienlijk kan verlagen.

Een andere manier is het verbeteren van de datasets waarop LLM wordt getraind. In november publiceerde een team onderzoekers van de Mohamed bin Zayed Universiteit in Abu Dhabi de nieuwste versie van hun Arabischtalige model, genaamd "Jais". Het heeft een zesde van het aantal parameters van ChatGPT-3, maar presteert ongeveer net zo goed in het Arabisch.

Timothy Baldwin, president van de Mohamed bin Zayed Universiteit, merkte op dat hoewel zijn team veel Arabische tekst had gedigitaliseerd, er nog steeds een deel van de Engelse tekst in het model was opgenomen. Sommige concepten zijn in alle talen hetzelfde en kunnen in elke taal worden geleerd.

Een derde aanpak is om modellen te verfijnen nadat ze zijn getraind. Zowel Jais als OpenHathi hebben een aantal door mensen gegenereerde vraag-antwoordparen. Hetzelfde geldt voor westerse chatbots, om misinformatie te voorkomen.

Ernie Bot, een LLM van Baidu, een groot Chinees techbedrijf, is zo afgesteld dat taalgebruik dat de overheid zou kunnen beledigen, wordt beperkt. De modellen kunnen ook leren van menselijke feedback, waarbij gebruikers de antwoorden van de LLM beoordelen. Maar dat is lastig voor veel talen in minder ontwikkelde regio's, omdat er gekwalificeerde mensen moeten worden ingehuurd om de antwoorden van de machine te beoordelen.

(Volgens Economist)

Het Amerikaanse leger gebruikt AI om prijzen van cruciale mineralen te schatten . Het Amerikaanse leger is van plan een computerprogramma te ontwikkelen dat prijzen kan schatten en de levering van nikkel, kobalt en andere cruciale mineralen kan voorspellen.