Dr. Dao Duc Minh: „Die Beherrschung vietnamesischer Daten ist der erste Schritt zur Entwicklung und Beherrschung vietnamesischer Technologie.“
Báo Thanh niên•27/05/2024
Nachdem Sie in den USA für eine große Organisation für künstliche Intelligenz gearbeitet hatten, warum haben Sie sich entschieden, nach Vietnam zurückzukehren, um bei VinBigdata anzufangen? Obwohl ich während meiner Arbeit in den USA an vielen großen Regierungsprojekten mitwirkte, waren die Ergebnisse, die ich erzielte, oft nur wenige Schritte in einem großen Verarbeitungsprozess. Aufgrund der sehr strengen Vertraulichkeitsverfahren der Projekte wusste ich oft nicht einmal, wie die von mir entwickelten Lösungen eingesetzt wurden. 2017 kehrte ich nach Vietnam zurück, als sich das Land in der Entwicklungsphase befand und es viele Probleme im Zusammenhang mit Big Data und künstlicher Intelligenz zu lösen gab. Ich nahm die Einladung von Professor Vu Ha Van an, um gemeinsam das Ziel zu verwirklichen, vietnamesische Technologielösungen zu entwickeln, die dem Leben der Vietnamesen dienen. Meine Rückkehr nach Vietnam empfinde ich als viel bedeutsamer, weil ich an Problemen mit größerer Wirkung arbeiten kann.
Dr. Dao Duc Minh in einem Workshop
NVCC
Welche Rolle und welchen Einfluss haben Big Data in der Strategie zur Entwicklung künstlicher Intelligenz? Daten spielen beim Training künstlicher Intelligenz eine sehr wichtige und wertvolle Rolle. Um ein hochwertiges KI-Modell zu trainieren, beginnen wir oft mit dem Training einer großen Datenbank. Um also qualitativ hochwertige künstliche Intelligenz zu entwickeln, benötigen wir zunächst gute Daten. Gute Daten müssen Standards hinsichtlich Quantität und Umfang, Qualität, Vielfalt und Universalität erfüllen. Das Sammeln und Verarbeiten von Tausenden von Datenstunden aus der Rohdatenbereinigung, um qualitativ hochwertige Daten für das KI-Modell zu erstellen, ist sehr teuer und kompliziert. Um Big Data zu analysieren, müssen wir hingegen künstliche Intelligenz einsetzen, um die Fähigkeit zu gewährleisten, Daten in großem Umfang präzise zu verarbeiten und so aussagekräftigere oder prädiktivere Ergebnisse zu erzielen. Beispielsweise mussten wir im Zuge der Entwicklung eines virtuellen Assistenten für Vietnamesen (ViVi) Zehntausende Stunden hochwertiger Audiodaten von Hunderttausenden Stimmen aus verschiedenen Regionen, unterschiedlichen Alters und Geschlechts mit Inhalten aus Hunderten von Bereichen sammeln und verarbeiten … Oder erst kürzlich die Einführung von ViGPT – „der ersten vietnamesischen Version von ChatGPT für Endnutzer“, die auf einem Big Language Model basiert, das vollständig im Besitz von VinBigdata ist. Dieses Modell wurde auf der Grundlage von 600 GB verfeinerter vietnamesischer Daten aus vielen verschiedenen Bereichen trainiert. Mit unserem Verständnis der vietnamesischen Daten und Sprache haben wir einen neuen Ansatz gefunden, um die Einführungszeit von ViGPT auf nur 9 Monate nach der Geburt von ChatGPT zu verkürzen. Dies ist die Resonanz zwischen Big Data und künstlicher Intelligenz.
Wie stehen Sie zur Verknüpfung von Forschung und praktischem Nutzen im Dienste der Gemeinschaft? – Ich glaube, dass Technologieforschung nur dann wirklich erfolgreich ist, wenn sie tatsächlich ins Leben eintritt, soziale Probleme löst und das Leben der Menschen verbessert. Um praktische kommerzielle Produkte zu entwickeln und geschäftliche und soziale Probleme zu lösen, müssen wir stets aufmerksam sein und uns die Frage stellen: Welchen Wert bringen Daten ins Leben? Bisher haben wir eine Vielzahl von Produkten und Lösungen in unterschiedlichen Branchen und Bereichen erforscht, darunter ViGPT, VinDr – Anbieter von KI-Lösungen in der medizinischen Bilddiagnostik, VinBase – eine Plattform für künstliche Intelligenz – oder Vizone – eine Reihe intelligenter Bildanalyselösungen.
Mit Schlüsselpersonal von VinBigdata bei einer Veranstaltung der Vingroup Corporation
NVCC
Die vierte industrielle Revolution ist weltweit in vollem Gange. Welche Vorteile hat Vietnam Ihrer Meinung nach? Im Vergleich zu früheren Revolutionen hat Vietnam meiner Meinung nach derzeit viele Vorteile, um in dieser industriellen Revolution 4.0 durchzubrechen und die Position des Landes auf der Weltkarte zu verbessern. Die beiden Schlüssel zum Erreichen dieses Ziels sind Daten und Menschen. Vietnam hat derzeit fast 100 Millionen Einwohner, von denen ein hoher Anteil junger Menschen Telefone und PCs nutzt. Darüber hinaus verfügen wir über renommierte Experten für künstliche Intelligenz und junge, hochqualifizierte Fachkräfte in der Informationstechnologie und verfügen über sehr gute mathematische Kenntnisse. Wo liegen also die Einschränkungen? Die erste erkennbare Einschränkung besteht darin, dass wir trotz unserer großen Bevölkerung immer noch Schwierigkeiten haben, Daten zu beherrschen, insbesondere Daten in Einrichtungen, Geschäftseinheiten und Verwaltungen zu standardisieren und zu synchronisieren. Darüber hinaus sind wir mit weiteren Einschränkungen konfrontiert, wie z. B. begrenzten Investitionsmitteln, insbesondere Investitionen in Hochleistungsrechnerinfrastruktur.
Wie wichtig ist Ihrer Meinung nach die Beherrschung vietnamesischer Daten auf dem Weg zur Entwicklung und Beherrschung von Technologien, die dem Leben der Vietnamesen dienen? Derzeit gibt es weltweit viele führende Produkte im Bereich künstliche Intelligenz, in der Regel KI-Anwendungen, die auf großen Sprachmodellen basieren, wie ChatGPT von OpenAI oder Bard von Google. Vietnamesisch ist jedoch nicht die Kernsprache für die Entwicklung dieser Produkte. Daher ist die Qualität der den Nutzern zurückgegebenen vietnamesischspezifischen Inhalte mehr oder weniger beeinträchtigt und es besteht eine hohe Fehlerwahrscheinlichkeit, gefährlicher noch, Fehler in den Grundkenntnissen. Als Vietnamesen haben wir den Vorteil, auf unsere eigenen Datenquellen zugreifen zu können. Nur wir sind in der Lage, die Besonderheiten vietnamesischer Daten sowie die Bedürfnisse und Eigenschaften der Vietnamesen zu verstehen. Daher ist die Beherrschung vietnamesischer Daten der Schlüssel zur Beherrschung von Kerntechnologien, die auch der Technologien sind, die den Vietnamesen dienen werden.
Interne Schulung für VinBigdata-Mitglieder
NVCC
Wie greift man auf spezifische Datenquellen zu, insbesondere wenn die meisten Vietnamesen heute soziale Netzwerke im Ausland nutzen? Tatsächlich sind das Internet und soziale Netzwerke heute die größte Quelle menschlicher Daten (nicht nur von Vietnamesen). Wir können jedoch basierend auf unserem Verständnis der Eigenschaften vietnamesischer Daten und den jeweiligen Projektanforderungen weiterhin auf Daten aus verschiedenen Quellen zugreifen und diese sammeln. Beispielsweise verfügen die GPT-Modelle von OpenAI über Hunderte, ja sogar Billionen von Parametern, werden mit riesigen Datenmengen trainiert und kosten Milliarden von Dollar. Im Vergleich dazu haben wir basierend auf unserer Forschung, unseren Fähigkeiten und Ressourcen eine völlig andere Richtung eingeschlagen: Wir haben ein vietnamesisches Sprachmodell mit einer Architektur von nur wenigen Milliarden Parametern entwickelt, das mit einem 600 GB großen Satz vietnamesischer Daten trainiert wurde, die wir selbst gesammelt und verfeinert haben, das aber die gleiche Fähigkeit zur Verarbeitung von Vietnamesisch besitzt. Die Ergebnisse zeigen, dass unsere selbst entwickelte Architektur sich selbst optimieren, die Trainingszeit des Sprachmodells verkürzen und die Kosten senken kann, während gleichzeitig die Modellqualität gewährleistet bleibt. Welche Herausforderungen sind Ihnen und Ihrem Team bei der Erforschung und Entwicklung von KI-Produkten begegnet? Die erste Herausforderung ist sicherlich die Zeit. Die Welle der künstlichen Intelligenz ist rasant und erlebt einen explosionsartigen Aufschwung. Weltweit führende Technologieunternehmen bringen schnell hochentwickelte Produkte auf den Markt, die ständig aktualisiert und verbessert werden. Wenn wir langsam sind und Produkte nicht rechtzeitig auf den Markt bringen, geraten wir mit Sicherheit ins Hintertreffen. Wenn wir andererseits Produkte entwickeln wollen, die praktisch anwendbar sind und praktische gesellschaftliche Probleme lösen, müssen wir auch die herausragenden, besonderen und einzigartigen Produktmerkmale entdecken und entwickeln.
Präsentation beim Vietnam Artificial Intelligence Day (AI4VN 2023)
NVCC
Tatsächlich haben viele Einzelpersonen und Organisationen in Vietnam und weltweit durch Datenlecks große Verluste erlitten. Wie sehen Sie das Thema Datensicherheit? Man kann sagen, dass jede Anwendung heutzutage auf Daten basiert. Bei der Arbeit mit Daten müssen wir einerseits das Ziel verfolgen, Daten zu nutzen, um die beste Technologie für das Leben zu entwickeln, und andererseits die Datensicherheit für Einzelpersonen und Organisationen gewährleisten. Der menschliche Faktor ist ein sehr wichtiges Bindeglied im Prozess der Gewährleistung der Datensicherheit. Dazu gehören Entwickler, Produktnutzer und Anwender. Entwickler müssen sich der Datensicherheit von Anfang an bei der Datenerfassung und -verarbeitung bewusst sein. Wenn keine Probleme auftreten, sind wir uns der Bedeutung der Datensicherheit oft nicht bewusst. Doch ein Datenleck kann den Schaden enorm erhöhen. Datenlecks können durch technische Probleme oder vorsätzlichen Datendiebstahl entstehen. Bei einem Datenleck können die Informationen von Einzelpersonen oder Organisationen von Kriminellen für illegale Zwecke missbraucht werden, während Unternehmen bei der Behebung der Probleme finanzielle Verluste erleiden und sogar ihrem Ruf schaden können.
Dr. Dao Duc Minh und das VinBigdata-Team bei einer Veranstaltung
NVCC
Nach dem Ziel, die Technologie zu beherrschen und den Vietnamesen zu dienen, müssen nun auch Schritte unternommen werden, um weltweit Fuß zu fassen? Jede Organisation oder jedes Unternehmen, das seine Produkte auf den internationalen Markt bringen möchte, muss internationale Standards einhalten. VinBigdata verfügt über Stärken in den Bereichen Lösungen und Technologie, daher ist es naheliegend, die Vision zu entwickeln, die Welt zu erobern. Für die Bereitstellung vieler verschiedener Produkte und Anwendungen ist natürlich die Unterstützung internationaler Einheiten mit langjähriger Erfahrung und Verständnis für die Benutzer weltweit erforderlich. Vielen Dank!
Kommentar (0)