Das Produkt sorgte in der vietnamesischen Wissenschafts- und Technologie-Community schnell für Aufsehen.

Wählen Sie den schwierigen Weg, um die vietnamesischen Probleme zu lösen

Ende 2022 sorgte ChatGPT für einen „Urknall“ und eröffnete einen Wettlauf um die Vorherrschaft der künstlichen KI zwischen Ländern und Technologiegiganten. Die vietnamesische Technologie-Community war damals bestrebt, vietnamesische Produkte zu entwickeln, um technologisch autark zu sein und die Abhängigkeit von internationalen Produkten zu verringern. Doch nicht jede Einheit verfügt über die Fähigkeit und Entschlossenheit, diesen Wunsch wie VinBigdata zu verwirklichen.

Generative KI ist ein komplexes Problem. Große Unternehmen wie OpenAI oder Google müssen zudem viel Zeit und Ressourcen in die Forschung investieren, um Produkte wie die von uns vorgestellten zu entwickeln. Diese Produkte sind zwar sehr gut, aber ihre Funktionsweise ist noch nicht vollständig erforscht. Wann und wie Fehler auftreten, lässt sich kaum vorhersagen. Die Entwicklung eines ChatGPT-ähnlichen Produkts für Vietnamesen in weniger als einem Jahr ist mit vielen Herausforderungen verbunden. Wir haben uns jedoch für das Risiko entschieden, denn wenn eine vietnamesische Version von ChatGPT nicht von Vietnamesen entwickelt wird, wer soll sie dann entwickeln?“, so Professor Vu Ha Van, wissenschaftlicher Direktor von VinBigdata.

Tatsächlich entscheiden sich nur sehr wenige Unternehmen dafür, ihre großen Sprachmodelle von Grund auf selbst zu entwickeln. Beispielsweise verfügt OpenAIs GPT 3 über 175 Milliarden Parameter, wurde anhand eines 45 Terabyte großen Datensatzes trainiert und kostete 4,6 Millionen US-Dollar. Berechnungen zufolge könnten die Entwicklungskosten für GPT 4 sogar bis zu 100 Millionen US-Dollar betragen. „Angesichts dieser enormen Zahlen ist es sehr schwierig, ein Unternehmen zu finden, das es sich leisten kann, in diese Technologie zu investieren“, sagte Dr. Nguyen Kim Anh, Produktdirektor von VinBigdata.

Bild 1.jpg

Damit vietnamesische Unternehmen kostengünstig und mit optimaler Infrastruktur auf KI-Technologie der neuen Generation zugreifen können, hat VinBigdata einen völlig anderen Weg eingeschlagen: Es wurde ein Sprachmodell mit nur 1,6 Milliarden Parametern entwickelt, dessen Leistungsfähigkeit jedoch denen großer Sprachmodelle mit Milliarden von Parametern entspricht. „Die Ergebnisse zeigen, dass es mit der von VinBigdata selbst entwickelten Architektur durchaus möglich ist, den Trainingsprozess des Sprachmodells zu optimieren und zu beschleunigen, die Infrastrukturkosten (einschließlich Trainings- und Nutzungskosten) zu senken und gleichzeitig die Qualität des Modells sicherzustellen“, fügte Dr. Nguyen Kim Anh hinzu.

Nachdem das Problem der großen Sprachmodellgröße gelöst war, wurde sich das VinBigdata-Team während des Prozesses der „Konzeption“ von ViGPT und der Untersuchung fremder Modelle auch einer weiteren Herausforderung bewusst: der „Illusion“, die aus der inhärenten Natur statistischer Wahrscheinlichkeitsmodelle resultiert.

Dementsprechend werden die weltweit größten Sprachmodelle oft mit englischen Datenquellen trainiert. Daher versteht dieses Modell den Kontext und die Kultur der Vietnamesen nicht wirklich und reagiert nicht richtig darauf. Dies führt zu einer Halluzination, die dazu führt, dass das große Sprachmodell falsche Antworten „erfindet“.

Bild 3.jpg

Um in kürzester Zeit die optimale Lösung zu finden, wurde das Natural Language Processing (NLP)-Team von VinBigdata in kleine Gruppen aufgeteilt, die verschiedene Ideen analysierten und diskutierten, um die am besten geeignete endgültige Richtung zu finden.

„Schließlich haben wir uns entschieden, eine andere Architektur als die meisten aktuellen großen Sprachmodelle zu entwickeln und das Training anhand eines 600 GB großen, fein abgestimmten vietnamesischen Datensatzes durchzuführen, um einen „intelligenten virtuellen Assistenten“ zu erstellen, der in der Lage ist, den Kontext der Vietnamesen zu verstehen und entsprechend Antworten zu geben“, fügte Dr. Nguyen Kim Anh hinzu.

Streben nach einem vietnamesischen Technologie-Ökosystem

Laut den Bewertungsergebnissen der Vietnamese Language Proficiency Assessment Standards (VMLU) erreichte ViGPT eine durchschnittliche Punktzahl von 42,24 % und lag damit nur hinter ChatGPT (48,54 %). Dieses Ergebnis ermöglicht es ViGPT, schnell nach Informationen zu suchen und Fragen zu spezifischen und spezifischen Themen Vietnams zu beantworten.

Neben den Funktionen des virtuellen Assistenten möchte das Entwicklungsteam ViGPT in vertraute Alltagsprodukte integrieren, um das Leben der Vietnamesen zu verändern. Dies ist die treibende Kraft hinter dem VinBigdata-Team, ein Ökosystem aus Sprach- und Stimmprodukten aufzubauen, die ViGPT nutzen – das „Vi“-Ökosystem umfasst: ViChat, ViVoice und ViVi Virtual Assistant. Diese Produkte sind branchenübergreifend einsetzbar, von der Automobilindustrie über Bank- und Finanzwesen und Versicherungen bis hin zum Transportwesen und vielen weiteren Bereichen.

„Bei der Arbeit mit Technologie, insbesondere KI, geht es uns nicht nur darum, interessante, komplexe Systeme zu erobern, die schwer zu erkennen sind. Wir wollen greifbare, hochgradig anwendbare Produkte schaffen, bei denen KI der direkte Akteur ist, der Veränderungen im Leben bewirkt“, bekräftigte der Produktdirektor von VinBigdata.

Bild 4.jpg

Die erfolgreiche Entwicklung von ViGPT ist daher nur der erste Schritt auf dem Weg, „rein vietnamesische“ Technologie und Daten in das Leben von Millionen Vietnamesen zu bringen. Ein Vertreter von VinBigdata erklärte, dass diese Einheit darauf abzielt, ViGPT in die multikognitive KI-Plattform VinBase 2.0 zu integrieren, um überlegene Lösungen für Organisationen und Unternehmen unterschiedlicher Größe und Branchen bereitzustellen.

Vor ViGPT hat sich das Team aus Experten und Ingenieuren auf dem Gebiet der Sprach- und Sprechverarbeitungstechnologie VinBigdata mit der Einführung von ViVi einen Namen gemacht – dem ersten umfassenden vietnamesischen virtuellen Assistenten (angewendet und im Einsatz auf Elektroautos von VinFast , Vinhomes Resident-Anwendungen und der E-Commerce-Plattform Vinhomes Online), der gleichzeitig die fortschrittlichsten Technologien der Welt wie Stimmbiometrie oder Stimmklonierung vollständig beherrscht.

Alle diese Technologien basieren auf einer 3.500 Terabyte großen Datenbank und konzentrieren sich hauptsächlich auf vietnamesenspezifische Daten, die von VinBigdata gesammelt, analysiert und verfeinert werden. Ziel ist es, mithilfe vietnamesischer Daten- und Wissenssysteme Welttechnologie in das vietnamesische Leben zu bringen.

ViGPT ist die erste vietnamesische Version von ChatGPT für Endbenutzer, die auf dem von VinBigdata entwickelten vietnamesischen Large Language Model (LLM) basiert. ViGPT verfügt über herausragende Funktionen und ist optimal auf die Bedürfnisse der Vietnamesen zugeschnitten, beispielsweise bei der Erstellung von Inhalten, der Informationssuche und der Beantwortung typischer Fragen aus Vietnam. Registrieren Sie sich und erleben Sie ViGPT unter: vigpt.vinbigdata.com

Thanh Ha