OpenAI o tom, jak byl ChatGPT-4 trénován, mnoho neprozradila. Modely velkých jazyků (LLM) se však obvykle trénují na textu získaném z internetu, kde je angličtina lingua franca. Přibližně 93 % trénovacích dat ChatGPT-3 je v angličtině.

V Common Crawl, jen jedné z datových sad, na kterých byl model umělé inteligence trénován, tvoří angličtina 47 % korpusu, ostatní evropské jazyky pak dalších 38 %. Naproti tomu čínština a japonština dohromady tvoří pouze 9 %.

snímek obrazovky 31. ledna 2024 na adrese 151709.png
Většina dat používaných pro vzdělávání v oblasti LLM je v angličtině nebo jiných evropských jazycích.

Jak zjistili Nathaniel Robinson, výzkumník z Univerzity Johnse Hopkinse, a jeho kolegové, tento problém se neomezuje pouze na ChatGPT. Všechny LLM si vedly lépe v jazycích s „vysokými zdroji“, kde bylo k dispozici dostatek trénovacích dat, než v jazycích s „nízkými zdroji“, kde jich bylo málo.

To je problém pro ty, kteří doufají, že umělou inteligenci přinesou do chudých zemí, aby zlepšili oblasti od vzdělávání po zdravotnictví. V důsledku toho vědci po celém světě pracují na tom, aby umělá inteligence byla vícejazyčná.

Indická vláda loni v září spustila chatbota, který má zemědělcům pomáhat s užitečnými informacemi od vlády.

Shankar Maruwada z nadace EkStep, neziskové organizace, která pomohla vytvořit chatbota, uvedl, že bot funguje na principu kombinace dvou typů jazykových modelů, což uživatelům umožňuje odesílat dotazy v jejich rodném jazyce. Tyto dotazy v rodném jazyce jsou předávány softwaru pro strojový překlad v indickém výzkumném zařízení, který je překládá do angličtiny a poté odpověď předá společnosti LLM, která ji zpracuje. Nakonec je odpověď přeložena zpět do rodného jazyka uživatele.

Tento proces může fungovat, ale překlad dotazů do „preferovaného“ jazyka LLM je neohrabané řešení. Jazyk je odrazem kultury a světonázoru . Článek Rebeccy Johnsonové, výzkumnice z University of Sydney, z roku 2022 zjistil, že ChatGPT-3 poskytl odpovědi na témata, jako je kontrola zbraní a uprchlická politika, které byly srovnatelné s americkými hodnotami vyjádřenými ve World Values ​​Survey.

V důsledku toho se mnoho výzkumníků snaží vytvořit LLM, které by plynule hovořily v méně běžně používaných jazycích. Technicky vzato je jedním z přístupů úprava tokenizátoru pro daný jazyk. Indický startup s názvem Sarvam AI napsal tokenizátor optimalizovaný pro hindštinu, neboli model OpenHathi – LLM optimalizovaný pro jazyk Devanagari (Indie), který může výrazně snížit náklady na zodpovězení otázek.

Dalším způsobem je vylepšit datové sady, na kterých se trénuje LLM. V listopadu tým výzkumníků z Univerzity Mohameda bin Zayeda v Abú Zabí vydal nejnovější verzi svého modelu pro arabsky mluvící jazyky s názvem „Jais“. Má šestinový počet parametrů oproti ChatGPT-3, ale v arabštině si vede přibližně stejně dobře.

Timothy Baldwin, prezident Univerzity Mohameda bin Zayeda, poznamenal, že ačkoli jeho tým digitalizoval velké množství arabského textu, model stále zahrnul i část anglického textu. Některé koncepty jsou ve všech jazycích stejné a lze se je naučit v jakémkoli jazyce.

Třetím přístupem je doladění modelů po jejich natrénování. Jais i OpenHathi mají řadu dvojic otázek a odpovědí generovaných člověkem. Totéž platí pro západní chatboty, aby se zabránilo dezinformacím.

Ernie Bot, LLM z velké čínské technologické společnosti Baidu, byl vyladěn tak, aby omezoval projevy, které by mohly urazit vládu. Modely se také mohou učit z lidské zpětné vazby, přičemž uživatelé hodnotí odpovědi LLM. To je však u mnoha jazyků v méně rozvinutých regionech obtížné kvůli nutnosti najmout kvalifikované lidi, kteří by odpovědi stroje hodnotili.

(Podle Economistu)

Americká armáda využívá umělou inteligenci k odhadování cen kritických nerostů Americká armáda plánuje vyvinout počítačový program schopný odhadovat ceny a předpovídat dodávky niklu, kobaltu a dalších kritických nerostů.