Das Produkt sorgte in der vietnamesischen Wissenschafts- und Technologieszene schnell für Aufsehen.
Wähle den schwierigen Weg, um das vietnamesische Problem zu lösen
Ende 2022 sorgte ChatGPT für Furore und entfachte einen Wettlauf um die Vorherrschaft im Bereich der künstlichen Intelligenz zwischen Ländern und Technologiekonzernen. Gleichzeitig strebte die vietnamesische Technologiebranche danach, eigene Produkte zu entwickeln, um technologisch unabhängiger zu werden und die Abhängigkeit von internationalen Produkten zu verringern. Doch nicht jedes Unternehmen verfügt über die Fähigkeiten und die Entschlossenheit, dieses Ziel wie VinBigdata zu erreichen.
„Generative KI ist ein komplexes Problem. Große Unternehmen wie OpenAI oder Google müssen viel Zeit und Ressourcen in die Forschung investieren, um Produkte wie die unsere zu entwickeln. Diese Produkte sind zwar sehr gut, aber die Funktionsweise ist Wissenschaftlern noch immer nicht vollständig klar. Wann und welche Fehler auftreten, lässt sich kaum vorhersagen. Die Entwicklung eines Produkts wie ChatGPT für Vietnamesen in weniger als einem Jahr birgt viele Herausforderungen. Wir haben uns jedoch bewusst für dieses Risiko entschieden, denn wenn eine vietnamesische Version von ChatGPT nicht von Vietnamesen entwickelt wird, wer dann?“, erklärte Professor Vu Ha Van, Wissenschaftlicher Direktor von VinBigdata.
Tatsächlich entscheiden sich nur sehr wenige Unternehmen dafür, ihre eigenen großen Sprachmodelle von Grund auf zu entwickeln. So verfügt beispielsweise OpenAIs GPT-3 über 175 Milliarden Parameter, wurde mit einem 45 Terabyte großen Datensatz trainiert und kostete 4,6 Millionen US-Dollar. Berechnungen zufolge könnten die Entwicklungskosten für GPT-4 sogar 100 Millionen US-Dollar erreichen. „Angesichts dieser enormen Zahlen ist es sehr schwierig, ein Unternehmen zu finden, das es sich leisten kann, in diese Technologie zu investieren“, sagte Dr. Nguyen Kim Anh, Produktleiter bei VinBigdata.
Um vietnamesischen Unternehmen den Zugang zu KI-Technologien der neuen Generation mit optimalen Kosten und Infrastruktur zu ermöglichen, wählte VinBigdata einen völlig anderen Ansatz: die Entwicklung eines Sprachmodells mit nur 1,6 Milliarden Parametern, das jedoch die Leistungsfähigkeit großer Sprachmodelle mit Milliarden von Parametern aufweist. „Die Ergebnisse zeigen, dass es mit der von VinBigdata selbst entwickelten Architektur möglich ist, den Trainingsprozess von Sprachmodellen zu optimieren und zu beschleunigen, die Infrastrukturkosten (einschließlich Trainings- und Nutzungskosten) zu senken und gleichzeitig die Modellqualität zu gewährleisten“, ergänzte Dr. Nguyen Kim Anh.
Nachdem das Problem der großen Sprachmodellgröße gelöst war, erkannte das VinBigdata-Team während des Konzeptionsprozesses von ViGPT und der Untersuchung ausländischer Modelle auch eine weitere Herausforderung, nämlich die „Illusion“, die sich aus der inhärenten Natur statistischer Wahrscheinlichkeitsmodelle ergibt.
Daher werden die weltweit größten Sprachmodelle häufig mit englischen Datensätzen trainiert. Folglich verstehen diese Modelle den Kontext und die Kultur der Vietnamesen nicht wirklich und reagieren nicht angemessen darauf. Dies führt zu Fehlinterpretationen, die große Sprachmodelle dazu veranlassen, falsche Antworten zu „erfinden“.
Um in kürzester Zeit die optimale Lösung zu finden, ist das Natural Language Processing (NLP)-Team von VinBigdata in kleine Gruppen aufgeteilt, die verschiedene Ideen analysieren und diskutieren, um die geeignetste endgültige Richtung zu finden.
„Schließlich haben wir uns entschieden, eine andere Architektur als die meisten der derzeit verwendeten großen Sprachmodelle zu entwickeln und ein Training mit einem 600 GB großen, feinabgestimmten vietnamesischen Datensatz durchzuführen, um einen „intelligenten virtuellen Assistenten“ zu schaffen, der den Kontext der vietnamesischen Bevölkerung verstehen und entsprechende Antworten geben kann“, fügte Dr. Nguyen Kim Anh hinzu.
Bestrebungen für ein vietnamesisches Technologie-Ökosystem
Laut den Ergebnissen der Bewertungsstandards für vietnamesische Sprachkenntnisse (VMLU) erreichte ViGPT eine Durchschnittspunktzahl von 42,24 % und lag damit direkt hinter ChatGPT (48,54 %). Dieses Ergebnis ermöglicht es ViGPT, schnell Informationen zu finden und Fragen zu spezifischen Themen rund um Vietnam zu beantworten.
Neben den Funktionen des virtuellen Assistenten ist es das Ziel des Entwicklerteams, ViGPT in vertraute Alltagsprodukte zu integrieren und so das Leben der Vietnamesen zu verändern. Dies ist die treibende Kraft hinter dem VinBigdata-Team, das ein Ökosystem von Sprach- und Sprachprodukten entwickelt, die ViGPT nutzen – das „Vi“-Ökosystem umfasst ViChat, ViVoice und den virtuellen Assistenten ViVi. Diese Produkte lassen sich in zahlreichen Branchen einsetzen, von der Automobilindustrie über Banken und Finanzinstitute bis hin zu Versicherungen, Transportwesen und vielen weiteren Bereichen.
„Bei der Arbeit mit Technologie, insbesondere mit KI, wollen wir nicht nur interessante, komplexe und schwer durchschaubare Systeme beherrschen. Wir wollen greifbare, hochgradig anwendbare Produkte entwickeln, bei denen KI direkt Veränderungen im Leben bewirkt“, bekräftigte der Produktleiter von VinBigdata.
Die erfolgreiche Entwicklung von ViGPT ist daher nur der erste Schritt auf dem Weg, „rein vietnamesische“ Technologie und Daten für Millionen von Vietnamesen nutzbar zu machen. Ein Vertreter von VinBigdata erklärte, dass diese Einheit ViGPT in die multikognitive KI-Plattform VinBase 2.0 integrieren will, um herausragende Lösungen für Organisationen und Unternehmen verschiedenster Größen und Branchen bereitzustellen.
Vor ViGPT machte sich das Experten- und Ingenieurteam von VinBigdata auf dem Gebiet der Sprach- und Sprachverarbeitungstechnologie einen Namen mit der Einführung von ViVi – dem ersten umfassenden vietnamesischen virtuellen Assistenten (eingesetzt und bereitgestellt auf VinFast -Elektroautos, Vinhomes Resident-Anwendungen und der E-Commerce-Plattform Vinhomes Online) – und beherrschte gleichzeitig die fortschrittlichsten Technologien der Welt wie Stimmbiometrie oder Stimmklonierung vollständig.
Alle diese Technologien basieren auf einer 3.500 Terabyte großen Datenbank, die sich hauptsächlich auf vietnamesische Daten konzentriert, welche von VinBigdata gesammelt, analysiert und aufbereitet werden. Das übergeordnete Ziel ist es, mithilfe vietnamesischer Daten und Wissenssysteme internationale Technologien in den Alltag der Vietnamesen zu integrieren.
| ViGPT ist die erste vietnamesische Version von ChatGPT für Endnutzer und basiert auf dem von VinBigdata entwickelten vietnamesischen Sprachmodell (LLM). ViGPT bietet herausragende Funktionen und ist optimal auf die Bedürfnisse der vietnamesischen Bevölkerung zugeschnitten, z. B. für die Erstellung von Inhalten, die Informationssuche und die Beantwortung häufiger Fragen mit vietnamesischen Besonderheiten. Registrieren Sie sich und erleben Sie ViGPT unter: vigpt.vinbigdata.com |
Thanh Ha
Quelle






Kommentar (0)