Das Produkt sorgte in der vietnamesischen Wissenschafts- und Technologie-Community schnell für Aufsehen.
Wählen Sie den schwierigen Weg, um die vietnamesischen Probleme zu lösen
Ende 2022 wird ChatGPT einen „Urknall“ auslösen und ein Rennen um die Eroberung der künstlichen KI zwischen Ländern und Giganten im Technologiebereich eröffnen. Zu dieser Zeit war die vietnamesische Technologie-Community auch bestrebt, vietnamesische Produkte zu entwickeln, um technologisch unabhängig zu werden und die Abhängigkeit von internationalen Produkten zu verringern. Allerdings verfügt nicht jede Einheit über die Fähigkeit und Entschlossenheit, diesen Wunsch zu verwirklichen, wie VinBigdata.
Generative KI ist ein komplexes Problem. Große Unternehmen wie OpenAI oder Google müssen ebenfalls viel Zeit und Ressourcen in die Forschung investieren, um Produkte wie die von uns entwickelten zu können. Diese Produkte sind zwar sehr gut, aber ihre Funktionsweise ist noch nicht vollständig erforscht. Wann und wie Fehler auftreten, lässt sich kaum vorhersagen. Die Entwicklung eines ChatGPT-ähnlichen Produkts für Vietnamesen in weniger als einem Jahr ist mit vielen Herausforderungen verbunden. Wir haben uns jedoch für das Risiko entschieden, denn wenn eine vietnamesische Version von ChatGPT nicht von Vietnamesen entwickelt wird, wer soll sie dann entwickeln? - Prof. Vu Ha Van – Wissenschaftlicher Direktor von VinBigdata, teilte mit.
Tatsächlich entscheiden sich nur sehr wenige Unternehmen dafür, ihr eigenes Large Language Model von Grund auf neu zu entwickeln. Wie OpenAI verfügt GPT 3 über 175 Milliarden Parameter, wurde anhand eines 45 Terabyte großen Datensatzes trainiert und kostete 4,6 Millionen US-Dollar. Berechnungen zufolge könnte der Geldbetrag für die Entwicklung von GPT 4 sogar bis zu 100 Millionen USD betragen. „Angesichts derart großer Zahlen ist es schwierig, ein Unternehmen zu finden, das es sich leisten kann, in diese Technologie zu investieren“, sagte Dr. Nguyen Kim Anh, Produktdirektor von VinBigdata.
Damit vietnamesische Unternehmen bei optimalen Kosten und optimaler Infrastruktur auf KI-Technologie der neuen Generation zugreifen können, hat VinBigdata einen völlig anderen Weg eingeschlagen: die Erstellung eines Sprachmodells mit nur 1,6 Milliarden Parametern, dessen Fähigkeiten denen großer Sprachmodelle mit Milliarden von Parametern entsprechen. „Die Ergebnisse zeigen, dass es mit der von VinBigdata selbst entwickelten Architektur durchaus möglich ist, den Trainingsprozess des Sprachmodells zu optimieren und zu beschleunigen, die Infrastrukturkosten (einschließlich Trainingskosten und Nutzungskosten) zu senken und dennoch die Qualität des Modells sicherzustellen“, fügte Dr. Nguyen Kim Anh hinzu.
Nachdem das Problem der großen Sprachmodellgröße gelöst war, wurde sich das VinBigdata-Team während des Prozesses der „Konzeption“ von ViGPT und der Untersuchung fremder Modelle auch einer weiteren Herausforderung bewusst: der „Illusion“, die aus der inhärenten Natur statistischer Wahrscheinlichkeitsmodelle resultiert.
Dementsprechend werden die weltweit größten Sprachmodelle häufig mit englischen Datenquellen trainiert. Daher versteht dieses Modell den Kontext und die Kultur der Vietnamesen nicht wirklich und reagiert auch nicht angemessen darauf. Dies führt zu einer Halluzination, die das große Sprachmodell dazu veranlasst, falsche Antworten zu „erfinden“.
Um in kürzester Zeit die optimale Lösung zu finden, wurde das Natural Language Processing (NLP)-Team von VinBigdata in kleine Gruppen aufgeteilt, die verschiedene Ideen analysierten und diskutierten, um die am besten geeignete endgültige Richtung zu finden.
„Letztendlich haben wir uns entschieden, eine andere Architektur als die meisten aktuellen großen Sprachmodelle zu entwickeln und das Training anhand eines 600 GB großen, fein abgestimmten vietnamesischen Datensatzes durchzuführen, um einen „intelligenten virtuellen Assistenten“ zu erstellen, der in der Lage ist, den Kontext der Vietnamesen zu verstehen und entsprechend Antworten zu geben“, fügte Dr. Nguyen Kim Anh hinzu.
Streben nach einem vietnamesischen Technologie-Ökosystem
Gemäß den Bewertungsergebnissen der Vietnamese Language Proficiency Assessment Standards (VMLU) erreichte ViGPT eine durchschnittliche Punktzahl von 42,24 % und lag damit nur übertroffen von ChatGPT (48,54 %). Dieses Ergebnis ermöglicht es ViGPT, schnell nach Informationen zu suchen und Fragen zu bestimmten Themen, die speziell Vietnam betreffen, zu beantworten.
Neben den Funktionen eines virtuellen Assistenten möchte das Entwicklungsteam ViGPT in vertraute, täglich genutzte Produkte integrieren, um Veränderungen im Leben der Vietnamesen zu bewirken. Dies ist die Motivation, die das VinBigdata-Team antreibt, ein Ökosystem aus Sprach- und Stimmprodukten unter Verwendung von ViGPT aufzubauen – das „Vi“-Ökosystem, einschließlich: ViChat, ViVoice, ViVi Virtual Assistant. Diese Produkte können in vielen Branchen eingesetzt werden, von der Automobilindustrie über das Bank- und Finanzwesen und Versicherungen bis hin zum Transportwesen und vielen anderen Bereichen.
„Bei der Arbeit mit Technologie, insbesondere KI, geht es uns nicht nur darum, interessante, komplexe Systeme zu erobern, die schwer zu erkennen sind. Wir wollen greifbare, hochgradig anwendbare Produkte schaffen, bei denen KI der direkte Akteur ist, der Veränderungen im Leben bewirkt“, bekräftigte der Produktdirektor von VinBigdata.
Daher ist die erfolgreiche Entwicklung von ViGPT nur der erste Schritt auf dem Weg, „rein vietnamesische“ Technologie und Daten in den Dienst des Lebens von Millionen Vietnamesen zu stellen. Ein Vertreter von VinBigdata sagte, dass das Ziel dieser Einheit darin bestehe, ViGPT in die multikognitive künstliche Intelligenzplattform VinBase 2.0 zu integrieren, um herausragende Lösungen für Organisationssysteme und Unternehmen unterschiedlicher Größe und Branche bereitzustellen.
Vor ViGPT hat sich das Team aus Experten und Ingenieuren auf dem Gebiet der Sprach- und Sprechverarbeitungstechnologie VinBigdata mit der Einführung von ViVi einen Namen gemacht – dem ersten umfassenden vietnamesischen virtuellen Assistenten (angewendet und im Einsatz auf Elektroautos von VinFast, Vinhomes Resident-Anwendungen und der E-Commerce-Plattform Vinhomes Online), der gleichzeitig die fortschrittlichsten Technologien der Welt wie Stimmbiometrie oder Stimmklonierung vollständig beherrscht.
Alle diese Technologien werden auf der Grundlage einer 3.500 Terabyte großen Datenbank entwickelt, wobei der Schwerpunkt hauptsächlich auf vietnamesenspezifischen Daten liegt, die von VinBigdata gesammelt, analysiert und verfeinert werden. Das ultimative Ziel besteht darin, mithilfe vietnamesischer Daten- und Wissenssysteme Welttechnologie in das vietnamesische Leben zu bringen.
ViGPT ist die erste „vietnamesische Version von ChatGPT“ für Endbenutzer, die auf dem von VinBigdata entwickelten vietnamesischen Large Language Model (LLM) basiert. ViGPT verfügt über herausragende Funktionen und ist optimal auf die Bedürfnisse vietnamesischer Benutzer zugeschnitten, beispielsweise auf die Erstellung von Inhalten, die Suche nach Informationen und die Beantwortung allgemeiner, für Vietnam typischer Fragen. Registrieren Sie sich und erleben Sie ViGPT unter: vigpt.vinbigdata.com |
Thanh Ha
[Anzeige_2]
Quelle
Kommentar (0)