OpenAI hat nicht viel darüber verraten, wie ChatGPT-4 trainiert wurde. Große Sprachmodelle (LLMs) werden jedoch typischerweise mit Texten aus dem Internet trainiert, wo Englisch die Lingua Franca ist. Etwa 93 % der Trainingsdaten von ChatGPT-3 sind auf Englisch.

In Common Crawl, einem der Datensätze, mit denen das KI-Modell trainiert wurde, macht Englisch 47 % des Korpus aus, andere europäische Sprachen weitere 38 %. Chinesisch und Japanisch machen dagegen zusammen nur 9 % aus.

Screenshot 2024 01 31 um 151709.png
Die meisten für die LLM-Ausbildung verwendeten Daten sind auf Englisch oder in anderen europäischen Sprachen.

Dies ist kein Problem, das nur auf ChatGPT beschränkt ist, wie Nathaniel Robinson, ein Forscher an der Johns Hopkins University, und seine Kollegen herausfanden. Alle LLMs schnitten bei „ressourcenintensiven“ Sprachen, bei denen es reichlich Trainingsdaten gab, besser ab als bei „ressourcenarmen“ Sprachen, bei denen diese rar waren.

Dies ist ein Problem für diejenigen, die KI in arme Länder bringen wollen, um dort Bereiche wie Bildung und Gesundheit zu verbessern. Daher arbeiten Forscher weltweit daran, KI mehrsprachiger zu machen.

Im vergangenen September hat die indische Regierung einen Chatbot eingeführt, der Landwirten dabei helfen soll, über nützliche Informationen der Regierung auf dem Laufenden zu bleiben.

Shankar Maruwada von der EkStep Foundation, der gemeinnützigen Organisation, die den Chatbot mitentwickelt hat, erklärte, der Bot funktioniere durch die Kombination zweier Sprachmodelle, sodass Nutzer Anfragen in ihrer Muttersprache stellen können. Diese Anfragen in der Muttersprache werden an eine maschinelle Übersetzungssoftware einer indischen Forschungseinrichtung weitergeleitet, die sie ins Englische übersetzt und die Antwort anschließend an LLM weiterleitet, das die Antwort verarbeitet. Abschließend wird die Antwort wieder in die Muttersprache des Nutzers übersetzt.

Dieser Prozess mag funktionieren, aber die Übersetzung von Abfragen in die „bevorzugte“ Sprache von LLM ist ein umständlicher Workaround. Sprache ist ein Spiegelbild von Kultur und Weltanschauung . Eine Arbeit von Rebecca Johnson, einer Forscherin an der Universität Sydney, aus dem Jahr 2022 ergab, dass ChatGPT-3 Antworten zu Themen wie Waffenkontrolle und Flüchtlingspolitik lieferte, die mit den im World Values ​​Survey zum Ausdruck gebrachten amerikanischen Werten vergleichbar waren.

Daher versuchen viele Forscher, LLMs auch in weniger gebräuchlichen Sprachen flüssig zu machen. Ein technischer Ansatz besteht darin, den Tokenizer an die jeweilige Sprache anzupassen. Das indische Startup Sarvam AI hat einen für Hindi optimierten Tokenizer entwickelt, der auch das OpenHathi-Modell – ein für die Devanagari-Sprache optimiertes LLM (Indien) – umfasst und den Aufwand für die Beantwortung von Fragen deutlich reduzieren kann.

Eine weitere Möglichkeit besteht darin, die Datensätze zu verbessern, mit denen LLM trainiert wird. Im November veröffentlichte ein Forscherteam der Mohamed bin Zayed University in Abu Dhabi die neueste Version seines arabischsprachigen Modells namens „Jais“. Es verfügt nur über ein Sechstel der Parameter von ChatGPT-3, ist aber auf Arabisch ähnlich leistungsfähig.

Timothy Baldwin, Präsident der Mohamed bin Zayed University, stellte fest, dass sein Team zwar viele arabische Texte digitalisiert habe, aber dennoch einige englische Texte in das Modell aufgenommen worden seien. Einige Konzepte seien in allen Sprachen gleich und könnten in jeder Sprache erlernt werden.

Ein dritter Ansatz besteht darin, Modelle nach dem Training zu optimieren. Sowohl Jais als auch OpenHathi verfügen über eine Reihe von menschlich generierten Frage-Antwort-Paaren. Dasselbe gilt für westliche Chatbots, um Fehlinformationen zu vermeiden.

Ernie Bot, ein LLM des großen chinesischen Technologieunternehmens Baidu, wurde so optimiert, dass er Äußerungen einschränkt, die die Regierung beleidigen könnten. Die Modelle können auch aus menschlichem Feedback lernen, indem Nutzer die Antworten des LLM bewerten. Für viele Sprachen in weniger entwickelten Regionen ist dies jedoch schwierig, da qualifizierte Mitarbeiter eingestellt werden müssen, um die Antworten der Maschine zu bewerten.

(Laut Economist)

US-Armee nutzt KI zur Preisschätzung kritischer Mineralien Die US-Armee plant die Entwicklung eines Computerprogramms, das in der Lage ist, Preise zu schätzen und die Versorgung mit Nickel, Kobalt und anderen kritischen Mineralien vorherzusagen.