PV: Sir, könnten Sie uns etwas über die Rolle und den Wert von Daten beim Training künstlicher Intelligenz erzählen?
Herr Dao Duc Minh: Der Erfolg künstlicher Intelligenz wird maßgeblich davon abhängen, wie man Daten auswählt, sammelt und verarbeitet. Um ein hochwertiges KI-Modell zu trainieren, beginnen wir oft mit dem Training anhand einer relativ großen Datenbank.
Wenn das Modell dann bereitgestellt und getestet wird, spielt die fortlaufende Datenerfassung und -verarbeitung eine sehr wichtige Rolle bei der Verbesserung und Perfektionierung der Modellqualität.
Daten müssen hinsichtlich Quantität, Qualität, Vielfalt und Universalität Standards erfüllen. Beispielsweise mussten wir im Zuge der Entwicklung des Produkts „ViVi Virtual Assistant“ für Vietnamesen, um sie zu schulen, Zehntausende Stunden hochwertiger Daten von Hunderttausenden von Stimmen aus verschiedenen Regionen, unterschiedlichen Alters und Geschlechts sowie mit Inhalten aus Hunderten von Bereichen sammeln und verarbeiten.
Die Rohdaten werden zunächst bereinigt, beschriftet und in vielen Schritten verarbeitet, um eine Datenquelle höchster Qualität für das KI-Modell zu erstellen und so die Genauigkeit von ViVi zu verbessern. Diese Zahl erreicht fast das Maximum: >98 %.
Das Sammeln und Verarbeiten von Tausenden von Stunden an Daten ist sehr teuer und kompliziert. Für eine hochwertige künstliche Intelligenz benötigen wir jedoch hochwertige Daten. ChatGPT oder Bard (Googles Chatbot) werden beide mit riesigen Datenmengen trainiert, die aus vielen verschiedenen Quellen im Internet stammen.
Damit KI erfolgreich ist, muss sie anhand großer und vielfältiger Datenquellen trainiert werden, um hochpräzise Ergebnisse zu erzielen. Um Big Data zu analysieren, müssen wir KI einsetzen, um die Fähigkeit zu gewährleisten, Daten in großem Umfang präzise zu verarbeiten und so aussagekräftigere und prädiktivere Ergebnisse zu erzielen.
Es handelt sich um eine Resonanz zwischen künstlicher Intelligenz und Big Data.
PV: Erzählen Sie uns bitte etwas über den Prozess der Datenauswahl und -erfassung für maschinelles Lernen. Wie werden diese Daten erhoben und aus welchen Quellen? Insbesondere, wenn man bedenkt, dass die meisten Informationen über vietnamesische Nutzer auf den Social-Networking-Seiten ausländischer Unternehmen (Google, Facebook usw.) liegen.
Herr Dao Duc Minh: Der erste Schritt bei der Auswahl und Erfassung von Daten für Machine-Learning-Modelle besteht darin, zu verstehen, was eine gute Wahl ist. Wir können uns auf das 5V-Modell von Big Data beziehen. Eine gute Datenquelle berücksichtigt alle fünf Faktoren: Volumen, Wert, Vielfalt, Geschwindigkeit und Richtigkeit.
Um das beste KI-Modell für eine praktische Anwendung zu erstellen, muss eine gute Datenquelle in der Regel sowohl vielfältig und universell für viele ähnliche Probleme als auch spezifisch und individuell für diese Anwendung sein.
Tatsächlich sind das Internet und soziale Netzwerke die wichtigsten Quellen menschlicher Daten. Diese Datenquellen befinden sich größtenteils im Besitz ausländischer Unternehmen. Daten können jedoch aus vielen verschiedenen Quellen stammen, und Vietnam hat den Vorteil, auf eigene Datenquellen zugreifen zu können. Darüber hinaus gibt es Datenprobleme, die nur Vietnamesen lösen können. Wir verstehen die Besonderheiten vietnamesischer Daten, verstehen die Bedürfnisse und Besonderheiten der Vietnamesen und setzen daher erfolgreich Technologie ein, um ihr Leben zu verbessern.
Für ViVi bestand das erste Problem, das VinBigData sich stellte, darin, einen Sprachassistenten von Vietnamesen für Vietnamesen zu entwickeln. Das heißt, wir müssen vietnamesische Datenquellen beherrschen und mit künstlicher Intelligenz kombinieren, um ein hochgradig anwendbares Produkt zu entwickeln, das die Bedürfnisse der Vietnamesen optimal erfüllt.
Anhand dieser Ziele können wir erkennen, welche Datenquellen wir für das Training sammeln müssen und wo. Dabei muss es sich nicht unbedingt um die riesigen Datenquellen im Internet handeln.
Mit dem Ziel, vietnamesische Daten und Technologien zu beherrschen, hat VinBigData seit seiner Gründung eigene, für die vietnamesische Bevölkerung einzigartige Datenquellen aufgebaut. Die Gesamtmenge unserer Daten beträgt über 3.500 Terabyte. Konkret verfügen wir über: Daten zu Millionen multiregionaler Stimmen in Vietnam; über 2 Millionen medizinische Bilder aus vielen verschiedenen Quellen; Millionen von Daten zu Kamerabildern unterschiedlicher Objekte in Vietnam (Personen, Fahrzeuge und Gegenstände) sowie Dutzende verschiedener multidisziplinärer Datenbanken …, die alle gesammelt, bereinigt, verarbeitet und beschriftet wurden.
Insbesondere haben wir 2021 auch das Projekt zur Sequenzierung von 1000 vietnamesischen Genomen (veröffentlicht vom Big Data Research Institute – dem Vorgänger von VinBigData) angekündigt und sind damit eine der Einheiten mit der größten vietnamesischen Genomdatenbank. Dieses Forschungsergebnis wurde und wird mit der Gemeinschaft der Ärzte und Genetiker geteilt, mit dem Ziel, in Zukunft eine personalisierte Medizin für Vietnam zu ermöglichen.
PV : Was passiert nach der Datenerfassung und wie werden sie standardisiert? Je größer die Datenmenge, desto besser?
Herr Dao Duc Minh: Wie gesagt, ist die Menge einer der wichtigsten Faktoren bei der Datenerfassung. Ich möchte jedoch auch Folgendes betonen: Wenn die Daten nicht klar ausgewählt, bereinigt und klassifiziert werden, reichen Big Data allein nicht aus.
Typischerweise durchlaufen Daten einen grundlegenden Verarbeitungszyklus, der Folgendes umfasst: Erfassung (strukturierte und unstrukturierte Daten), Speicherung (Daten werden in einem Datenbanksystem gespeichert), Verarbeitung (einschließlich einer Reihe von Schritten wie Filtern, Bereinigen, Kennzeichnen, Datenanreicherung, Informationsextraktion/-synthese sowie Datenvisualisierung) und Analyse. Dieser Prozess kann während der Entwicklung und Fertigstellung eines KI-Systems mehrfach wiederholt werden.
Entscheidend ist, welchen Mehrwert Daten für das Leben bringen. Genau das verfolgt VinBigData seit fast fünf Jahren mit Forschung und Produktentwicklung. Wir sind überzeugt, dass Forschung erst dann wirklich erfolgreich sein wird, wenn Technologie tatsächlich ins Leben eintritt, soziale Probleme löst und das Leben der Menschen verbessert.
PV: Sie haben in letzter Zeit viel darüber gesprochen, wie wir unsere eigenen Datenlager sammeln und erstellen. Welche Kriterien werden also die Grenzen der Datenerfassung und -nutzung bestimmen, um die Rechte der Nutzer zu gewährleisten?
Herr Dao Duc Minh: Der Prozess der Datenerhebung und -verarbeitung erfordert gesetzliche Regelungen oder Sicherheitsstandards zum Schutz von Nutzern und Unternehmen. Vietnam ist noch dabei, spezifische Standards zum Schutz von Nutzerdaten zu entwickeln und zu perfektionieren.
Weltweit gibt es bereits zahlreiche Standards. Beispiele hierfür sind die DSGVO, der Datenschutzstandard der Europäischen Union, und PCI-DSS, ein Standard zum Schutz von Nutzern von Kartenzahlungen.
Wenn wir vietnamesische Produkte auf dem internationalen Markt bekannt machen oder einführen möchten, ist die Einhaltung dieser internationalen Standards unbedingt erforderlich.
Um die Rechte der Nutzer zu gewährleisten, ist VinBigData in naher Zukunft bestrebt, Transparenz bei der Datenerhebung und -verwendung zu schaffen und die Zwecke und Ziele der Datenerhebung und -verwendung öffentlich zu machen. Dies gilt insbesondere für Daten, die sich im Besitz von Einzelpersonen befinden.
VinBigData hat bereits Verträge mit einer Reihe internationaler Organisationen unterzeichnet, um die Sicherheit und die Rechte der Nutzer zu gewährleisten. Wir hoffen, dass Unternehmen und Regierung bald einen Konsens erzielen, um einen Rechtsrahmen und rechtliche Standards zum Schutz der Nutzerdaten zu schaffen.
PV: Welchen Risiken oder Sicherheitslücken ist künstliche Intelligenz beim Besitz von Big Data ausgesetzt?
Herr Dao Duc Minh: Bei richtiger Anwendung Daten sind ein wertvolles Gut. Das Risiko von Datenverlust und -lecks ist ein Problem, das von Anfang an Sicherheitsmaßnahmen erfordert.
Bis etwas passiert, verstehen wir oft nicht, wie wichtig Datensicherheit ist. Doch wenn etwas passiert, ist der Schaden enorm. Kürzlich sind die Daten von über 200 Millionen Twitter-Nutzern durchgesickert. Nutzerinformationen wurden öffentlich auf vielen verschiedenen Plattformen verkauft. Würden all diese Millionen Nutzer Klage einreichen, würde Twitter enorme Verluste erleiden.
Bei rein technischen Datenlecks ist der Schaden in der Regel geringer. Handelt es sich jedoch um vorsätzlichen Datendiebstahl, sind die Folgen unvorhersehbar. Privatpersonen können die durchgesickerten Informationen für zahlreiche illegale Zwecke nutzen. Unternehmen hingegen entstehen durch ein Datenleck nicht nur enorme finanzielle Verluste, da die damit verbundenen Probleme nicht behoben werden müssen, sondern auch Ruf- und Markenschäden.
PV : Welche Lösungen sind erforderlich, um diese Schwachstellen zu „patchen“ und die Datensicherheit zu verbessern, Sir?
Herr Dao Duc Minh: Die erste und nützlichste Lösung ist Prävention von Anfang an: Aufbau von Geräten zum Schutz der Informationssicherheit, mehrschichtiger Schutz, Durchführung des richtigen Prozesses.
Insbesondere umfasst die Sicherheitsvorsorge viele verschiedene Ebenen. Neben Investitionen in Sicherheitsausrüstung ist es notwendig, gleichzeitig einen Prozess für die Verarbeitung und Interaktion mit Benutzern und Daten aufzubauen, einen strengen Prozess zur Kontrolle des Datenlebenszyklus zu etablieren und gleichzeitig die Fähigkeiten und das Bewusstsein der Benutzer und des Betriebsteams in Bezug auf Informationssicherheit zu verbessern und entsprechende Datennutzungsrechte zuzuweisen (wer darf auf welche Daten zugreifen und sie verwenden?).
Auf der anderen Seite müssen Unternehmen auch Datensicherheitsrichtlinien identifizieren und bei deren Anwendung flexibel sein. Sie müssen die Sensibilitäts- und Sicherheitsstufe jedes Datentyps klassifizieren, um über geeignete Sicherheitsmaßnahmen zu verfügen, und dürfen eine zu strikte mechanische Anwendung von Informationssicherheitsrichtlinien vermeiden, da dies manchmal den Prozess der Datenentwicklung und -nutzung behindern kann.
Insbesondere für Einheiten, die Daten für die Entwicklung verwenden, ist die Datenklassifizierung noch wichtiger. Denn die Daten müssen häufig zwischen verschiedenen Abteilungen zirkulieren.
Unternehmen müssen auf den schlimmsten Fall vorbereitet sein und über entsprechende Experten verfügen, um den Schaden so gering wie möglich zu halten.
PV : 2023 wird das Jahr der Daten. Was sind Vietnams Stärken und Schwächen im Datenbereich? Was müssen wir Ihrer Meinung nach vorbereiten, um ein erfolgreiches Jahr der digitalen Daten zu ermöglichen?
Herr Dao Duc Minh: 2023 wird für Vietnam das Jahr der digitalen Daten sein. Was unsere Vorteile angeht, haben wir einen Datenvorteil. Vietnam hat 100 Millionen Einwohner. Davon nutzen viele junge Menschen Smartphones, PCs usw. Dies ist ein Merkmal, das Daten fördert und Probleme aufwirft, die in Vietnam durch künstliche Intelligenz gelöst werden müssen. Die zweite Stärke sind die Menschen. Vietnam verfügt insbesondere über die weltweit führenden Experten für künstliche Intelligenz. Darüber hinaus verfügen die jungen IT-Mitarbeiter des Landes über sehr gute mathematische Kenntnisse. Diese beiden Humanressourcen können kombiniert werden, um Produkte von internationalem Standard zu schaffen.
Was die Einschränkungen betrifft, haben wir Schwierigkeiten bei der Standardisierung von Daten. In Vietnam verfügt jeder Ort, jedes Unternehmen und jede Verwaltungseinheit über unterschiedliche Daten. Die Daten sind nicht standardisiert, fragmentiert und nicht synchronisiert. Wir benötigen außerdem einen spezifischeren Rechtsrahmen zur Standardisierung der Daten.
Um ein erfolgreiches digitales Datenjahr zu haben, muss Vietnam die Kernpunkte verstehen und die Möglichkeiten der Technologie nutzen. Die Verbindung zwischen Big Data und künstlicher Intelligenz wird der Hebel für Vietnams digitales Datenjahr sein.
Durch die Beherrschung von Daten auf allen Ebenen – von der Zentrale bis zur Kommune, von der Regierung bis hin zu Unternehmen – kann Vietnam die wertvollen digitalen Ressourcen des Landes bewahren. In Kombination mit fortschrittlichen Technologien können wir diese Ressourcen optimal nutzen.
„Die vietnamesischen Bürger besitzen vietnamesische Daten“ hilft Vietnam auch dabei, die Situation zu vermeiden, dass es Produkte zurückkauft, die aus seinen eigenen Ressourcen gewonnen wurden.
Gerade in der aktuellen 4.0-Revolution hat Vietnam im Vergleich zu früheren Revolutionen viele Vorteile. Wir haben die Möglichkeit, die Technologie zu nutzen, um schnell aufzuholen und die Position des Landes auf der Weltkarte zu verbessern. Ich denke, der Schlüssel, um dieses Ziel schneller und nachhaltiger zu erreichen, sind „Daten“ und „Menschen“.
PV: Nachdem Sie in den USA bei einem großen Unternehmen für künstliche Intelligenz gearbeitet hatten, was hat Sie dazu bewogen, nach Vietnam zurückzukehren?
Herr Dao Duc Minh: 2017 kehrte ich nach Vietnam zurück. Man kann sagen, dass dies ein Wendepunkt war. Während meiner Arbeit in den USA war ich zwar an vielen großen Regierungsprojekten beteiligt, doch die Ergebnisse, die ich erzielte, waren oft nur wenige Schritte in einem großen Verarbeitungsprozess. Es gab sogar Zeiten, in denen ich nicht wusste, ob die von mir entwickelten Lösungen tatsächlich genutzt wurden oder nicht, da die Sicherheitsverfahren des Projekts sehr streng waren.
Vietnam befindet sich derzeit in der Entwicklungsphase und es gibt viele Probleme im Zusammenhang mit Big Data und künstlicher Intelligenz, die gelöst werden müssen. Damals erhielt ich eine Einladung von Professor Vu Ha Van: Ich sollte nach Vietnam zurückkehren, um mein Ziel zu verwirklichen, vietnamesische Technologielösungen zu entwickeln, die dem Leben der Vietnamesen dienen.
Ich bin überzeugt, dass ich, wenn ich in Vietnam bleibe, an Problemen mit größerer Wirkung arbeiten kann. Das ist einer der wichtigen Punkte, die meine Rückkehr noch bedeutsamer machen.
PV: Vielen Dank für dieses Gespräch.
- Produktionsorganisation: Viet Anh - Hong Van
- Aufgeführt von: Thi Uyen
- Foto: Thanh Dat
Kommentar (0)