OpenAI hat nicht viel darüber verraten, wie ChatGPT-4 trainiert wurde. Große Sprachmodelle (LLMs) werden jedoch typischerweise mit Texten aus dem Internet trainiert, wo Englisch die Lingua Franca ist. Etwa 93 % der Trainingsdaten von ChatGPT-3 waren auf Englisch.

In Common Crawl, einem der Datensätze, mit denen das KI-Modell trainiert wurde, macht Englisch 47 % des Korpus aus, weitere 38 % entfallen auf andere europäische Sprachen. Chinesisch und Japanisch zusammen machen dagegen nur 9 % aus.

Screenshot 2024 01 31 um 151709.png
Die meisten für die LLM-Ausbildung verwendeten Daten sind auf Englisch oder in anderen europäischen Sprachen.

Dieses Problem beschränkt sich nicht nur auf ChatGPT, wie Nathaniel Robinson, Forscher an der Johns Hopkins University, und seine Kollegen herausfanden. Alle LLMs schnitten bei ressourcenintensiven Sprachen, bei denen reichlich Trainingsdaten vorhanden waren, besser ab als bei ressourcenarmen Sprachen, bei denen diese rar waren.

Dies ist ein Problem für diejenigen, die KI in arme Länder bringen wollen, um dort alles von der Bildung bis zur Gesundheitsversorgung zu verbessern. Deshalb arbeiten Forscher weltweit daran, KI mehrsprachiger zu machen.

Im vergangenen September hat die indische Regierung einen Chatbot eingeführt, der Landwirten hilft, mit nützlichen Informationen der Regierung auf dem Laufenden zu bleiben.

Shankar Maruwada von der EkStep Foundation, der gemeinnützigen Organisation, die den Chatbot mitentwickelt hat, erklärte, der Bot funktioniere durch die Kombination zweier Sprachmodelle, sodass Nutzer Anfragen in ihrer Muttersprache stellen können. Diese Anfragen in der Muttersprache werden an eine maschinelle Übersetzungssoftware einer indischen Forschungseinrichtung weitergeleitet, die sie ins Englische übersetzt und die Antwort anschließend an LLM weiterleitet, das die Antwort verarbeitet. Abschließend wird die Antwort wieder in die Muttersprache des Nutzers übersetzt.

Dieser Prozess mag funktionieren, aber die Übersetzung von Abfragen in die „bevorzugte“ Sprache von LLM ist ein umständlicher Workaround. Sprache ist ein Spiegelbild von Kultur und Weltanschauung . Eine 2022 erschienene Arbeit von Rebecca Johnson, Forscherin an der Universität Sydney, ergab, dass ChatGPT-3 Antworten zu Themen wie Waffenkontrolle und Flüchtlingspolitik lieferte, die mit den im World Values Survey zum Ausdruck gebrachten amerikanischen Werten vergleichbar waren.

Daher versuchen viele Forscher, LLMs auch in weniger verbreiteten Sprachen flüssig zu machen. Ein technischer Ansatz besteht darin, den Tokenizer an die jeweilige Sprache anzupassen. Das indische Startup Sarvam AI hat einen für Hindi optimierten Tokenizer oder ein OpenHathi-Modell entwickelt – ein für Devanagari (indisch) optimiertes LLM, das den Aufwand für die Beantwortung von Fragen deutlich reduzieren kann.

Eine weitere Möglichkeit besteht darin, die Datensätze zu verbessern, mit denen LLM trainiert wird. Im November veröffentlichte ein Forscherteam der Mohamed bin Zayed University in Abu Dhabi die neueste Version seines arabischsprachigen Modells „Jais“. Es verfügt nur über ein Sechstel der Parameter von ChatGPT-3, erreicht aber die gleiche Leistung wie Arabisch.

Timothy Baldwin, Präsident der Mohamed bin Zayed Universität, wies darauf hin, dass sein Team zwar viele arabische Texte digitalisiert habe, aber dennoch einige englische Texte im Modell enthalten seien. Manche Konzepte seien in allen Sprachen gleich und könnten in jeder Sprache erlernt werden.

Der dritte Ansatz besteht darin, die Modelle nach dem Training zu optimieren. Sowohl Jais als auch OpenHathi verfügen über eine Reihe von menschlich generierten Frage-Antwort-Paaren. Dasselbe gilt für westliche Chatbots, um Fehlinformationen zu vermeiden.

Ernie Bot, ein LLM von Baidu, einem großen chinesischen Technologieunternehmen, wurde optimiert, um Äußerungen einzuschränken, die die Regierung beleidigen könnten. Die Modelle können auch aus menschlichem Feedback lernen, indem Nutzer die Antworten des LLM bewerten. Dies ist jedoch für viele Sprachen in weniger entwickelten Regionen schwierig, da qualifizierte Mitarbeiter eingestellt werden müssen, um die Antworten der Maschine zu bewerten.

(Laut Economist)

US-Armee nutzt KI zur Preisschätzung kritischer Mineralien Die US-Armee plant die Entwicklung eines Computerprogramms, mit dem sich Preise von Nickel, Kobalt und anderen kritischen Mineralien schätzen und deren Vorräte vorhersagen lassen.