PV: Κύριε, θα μπορούσατε να μας πείτε για τον ρόλο και την αξία των δεδομένων στην εκπαίδευση της τεχνητής νοημοσύνης;
Κος Dao Duc Minh: Η επιτυχία της τεχνητής νοημοσύνης θα εξαρτηθεί σε μεγάλο βαθμό από τη γνώση του τρόπου επιλογής, συλλογής και επεξεργασίας δεδομένων. Για την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης υψηλής ποιότητας, συχνά ξεκινάμε εκπαιδεύοντας από μια αρκετά μεγάλη βάση δεδομένων.
Στη συνέχεια, όταν το μοντέλο αναπτυχθεί και δοκιμαστεί, η συνεχής συλλογή και επεξεργασία δεδομένων θα διαδραματίσει πολύ σημαντικό ρόλο στη βελτίωση και την τελειοποίηση της ποιότητας του μοντέλου.
Τα δεδομένα πρέπει να πληρούν τα πρότυπα όσον αφορά την ποσότητα, την ποιότητα, την ποικιλομορφία και την καθολικότητα. Για παράδειγμα, κατά τη διαδικασία ανάπτυξης του προϊόντος ViVi Virtual Assistant για τους Βιετναμέζους, για την εκπαίδευσή τους, έπρεπε να συλλέξουμε και να επεξεργαστούμε δεκάδες χιλιάδες ώρες δεδομένων υψηλής ποιότητας, από εκατοντάδες χιλιάδες φωνές από διαφορετικές περιοχές, διαφορετικές ηλικίες και φύλα, με περιεχόμενο που εκτείνεται σε εκατοντάδες τομείς,...
Τα ακατέργαστα δεδομένα αρχικά καθαρίζονται, επισημαίνονται και υποβάλλονται σε επεξεργασία μέσω πολλών βημάτων για να δημιουργηθεί η πηγή δεδομένων υψηλότερης ποιότητας που θα τροφοδοτήσει το μοντέλο Τεχνητής Νοημοσύνης, βελτιώνοντας έτσι την ακρίβεια του ViVi. Αυτός ο αριθμός φτάνει σχεδόν στο μέγιστο: >98%.
Η συλλογή και επεξεργασία χιλιάδων ωρών δεδομένων είναι πολύ ακριβή και περίπλοκη. Αλλά χρειαζόμαστε καλά δεδομένα για να έχουμε ποιοτική τεχνητή νοημοσύνη. Το ChatGPT ή το Bard (το chatbot της Google) εκπαιδεύονται και τα δύο σε τεράστιες πηγές δεδομένων που συλλέγονται από πολλές διαφορετικές πηγές στο Διαδίκτυο.
Για να είναι επιτυχημένη η Τεχνητή Νοημοσύνη, πρέπει να εκπαιδευτεί σε μεγάλες και ποικίλες πηγές δεδομένων, έτσι ώστε τα αποτελέσματα που παράγονται να είναι εξαιρετικά ακριβή. Αντίθετα, για να αναλύσουμε μεγάλα δεδομένα, πρέπει να χρησιμοποιήσουμε την Τεχνητή Νοημοσύνη για να διασφαλίσουμε την ικανότητα ακριβούς επεξεργασίας δεδομένων σε μεγάλη κλίμακα, δημιουργώντας έτσι αποτελέσματα που είναι πιο αποφασιστικά ή προγνωστικά.
Είναι ένας συντονισμός μεταξύ τεχνητής νοημοσύνης και μεγάλων δεδομένων.
PV: Παρακαλώ, πείτε μας για τη διαδικασία επιλογής και συλλογής δεδομένων για τη μηχανική μάθηση. Πώς θα συλλεχθούν αυτά τα δεδομένα και από ποιες πηγές; Ειδικά όταν το μέρος που κατέχει τις περισσότερες πληροφορίες σχετικά με τους Βιετναμέζους χρήστες είναι οι ιστότοποι κοινωνικής δικτύωσης ξένων εταιρειών (Google, Facebook...)
Κος Dao Duc Minh: Το πρώτο βήμα στη διαδικασία επιλογής και συλλογής δεδομένων για μοντέλα μηχανικής μάθησης είναι να κατανοήσουμε τι αποτελεί καλή επιλογή. Μπορούμε να αναφερθούμε στο μοντέλο 5V των μεγάλων δεδομένων, μια καλή πηγή δεδομένων θα περιλαμβάνει και τους 5 παράγοντες: όγκο, αξία, ποικιλία, ταχύτητα και ακρίβεια.
Συνήθως, για να δημιουργηθεί το καλύτερο μοντέλο Τεχνητής Νοημοσύνης για μια πρακτική εφαρμογή, μια καλή πηγή δεδομένων θα πρέπει να είναι τόσο ποικίλη όσο και καθολική σε πολλά παρόμοια προβλήματα, καθώς και συγκεκριμένη και ατομική για την εκάστοτε εφαρμογή.
Είναι γεγονός ότι η μεγαλύτερη πηγή ανθρώπινων δεδομένων βρίσκεται στο Διαδίκτυο και τα κοινωνικά δίκτυα. Αυτή η πηγή δεδομένων ανήκει σε μεγάλο βαθμό σε ξένες εταιρείες. Ωστόσο, τα δεδομένα μπορούν να προέρχονται από πολλές διαφορετικές πηγές και το Βιετνάμ εξακολουθεί να έχει το πλεονέκτημα της πρόσβασης στις δικές του πηγές δεδομένων. Επιπλέον, υπάρχουν προβλήματα δεδομένων που μόνο οι Βιετναμέζοι μπορούν να λύσουν. Επειδή εμείς είμαστε αυτοί που κατανοούμε τα χαρακτηριστικά των «βιετναμέζικων δεδομένων», κατανοούμε τις ανάγκες και τα χαρακτηριστικά των Βιετναμέζων, εφαρμόζοντας έτσι με επιτυχία την τεχνολογία για να εξυπηρετήσουμε τη ζωή των Βιετναμέζων.
Για την ViVi, το πρώτο πρόβλημα που έθεσε η VinBigData ήταν να φέρει ένα προϊόν φωνητικού βοηθού κατασκευασμένο από Βιετναμέζους, για Βιετναμέζους. Δηλαδή, πρέπει να κατακτήσουμε τις βιετναμέζικες πηγές δεδομένων, να τις συνδυάσουμε με την τεχνολογία τεχνητής νοημοσύνης για να φέρουμε ένα προϊόν υψηλής εφαρμογής, που θα εξυπηρετεί άριστα τις ανάγκες των Βιετναμέζων.
Από αυτούς τους στόχους, κατανοούμε τι και πού χρειάζεται να συλλέξουμε πηγές δεδομένων για εκπαίδευση. Αυτή η πηγή δεδομένων δεν χρειάζεται απαραίτητα να είναι οι τεράστιες πηγές δεδομένων στο διαδίκτυο.
Με την επιθυμία να κατακτήσει τα βιετναμέζικα δεδομένα και την τεχνολογία, από την ίδρυσή της, η VinBigData έχει δημιουργήσει τις δικές της πηγές δεδομένων που είναι μοναδικές για τον λαό του Βιετνάμ. Ο συνολικός όγκος δεδομένων που διαθέτουμε έχει φτάσει τα 3.500 Terabytes. Συγκεκριμένα, έχουμε: Δεδομένα για εκατομμύρια πολυπεριφερειακές φωνές στο Βιετνάμ, περισσότερες από 2 εκατομμύρια ιατρικές εικόνες από πολλές διαφορετικές πηγές, εκατομμύρια δεδομένα σε εικόνες κάμερας πολλαπλών αντικειμένων στο Βιετνάμ (άτομα, οχήματα και αντικείμενα) και δεκάδες διαφορετικές διεπιστημονικές βάσεις δεδομένων..., οι οποίες έχουν συλλεχθεί, καθαριστεί, υποβληθεί σε επεξεργασία και επισημανθεί.
Συγκεκριμένα, το 2021, ανακοινώσαμε επίσης το Έργο για την Αλληλούχιση 1000 Βιετναμέζικων Γονιδιωμάτων (που δημοσιεύτηκε από το Ινστιτούτο Έρευνας Μεγάλων Δεδομένων - τον προκάτοχο του VinBigData), με το οποίο γίναμε μία από τις μονάδες που κατέχουν τη μεγαλύτερη βάση δεδομένων βιετναμέζικου γονιδιώματος. Αυτό το ερευνητικό αποτέλεσμα έχει κοινοποιηθεί και κοινοποιείται στην κοινότητα των γιατρών και των γενετιστών, με στόχο την εξατομικευμένη ιατρική για το Βιετνάμ στο μέλλον.
PV : Τι συμβαίνει στη συνέχεια μετά τη συλλογή των δεδομένων και πώς τυποποιούνται; Όσο μεγαλύτερα είναι τα δεδομένα, τόσο το καλύτερο;
Κος Dao Duc Minh: Όπως είπα, ο όγκος είναι ένας από τους σημαντικούς παράγοντες κατά τη συλλογή δεδομένων. Ωστόσο, θέλω επίσης να τονίσω ότι: Εάν δεν επιλεγούν, δεν καθαριστούν και δεν ταξινομηθούν με σαφήνεια, τα μεγάλα δεδομένα από μόνα τους δεν επαρκούν.
Συνήθως, τα δεδομένα θα περάσουν από έναν βασικό κύκλο επεξεργασίας που περιλαμβάνει: Συλλογή (δομημένα και μη δομημένα δεδομένα), αποθήκευση (τα δεδομένα αποθηκεύονται σε ένα σύστημα βάσης δεδομένων), επεξεργασία (συμπεριλαμβανομένης μιας σειράς βημάτων όπως φιλτράρισμα, καθαρισμός, επισήμανση, βελτίωση δεδομένων, εξαγωγή/σύνθεση πληροφοριών, καθώς και οπτικοποίηση δεδομένων) και ανάλυση. Αυτή η διαδικασία μπορεί να επαναληφθεί πολλές φορές κατά την ανάπτυξη και την ολοκλήρωση ενός συστήματος Τεχνητής Νοημοσύνης.
Το σημαντικό είναι ποια αξία θα προσδώσουν τα δεδομένα στη ζωή; Αυτό καλλιεργεί η VinBigData εδώ και σχεδόν 5 χρόνια έρευνας και ανάπτυξης προϊόντων. Πιστεύουμε ότι μόνο όταν η τεχνολογία εισέλθει πραγματικά στη ζωή, λύνει κοινωνικά προβλήματα και βελτιώνει τη ζωή των ανθρώπων, η έρευνα θα είναι πραγματικά επιτυχημένη.
PV: Πρόσφατα έχετε μιλήσει πολύ για το πώς συλλέγουμε και δημιουργούμε τις δικές μας αποθήκες δεδομένων. Ποια θα είναι, λοιπόν, τα κριτήρια για τον καθορισμό των ορίων της συλλογής και χρήσης δεδομένων για τη διασφάλιση των δικαιωμάτων των χρηστών;
Κος Dao Duc Minh: Η διαδικασία συλλογής και επεξεργασίας δεδομένων απαιτεί νομικούς κανονισμούς ή πρότυπα ασφαλείας για την προστασία των χρηστών καθώς και των επιχειρήσεων. Το Βιετνάμ βρίσκεται ακόμη στη διαδικασία δημιουργίας και τελειοποίησης συγκεκριμένων προτύπων για την προστασία των δεδομένων των χρηστών.
Υπάρχουν ήδη αρκετά πρότυπα στον κόσμο . Για παράδειγμα: ο GDPR – το πρότυπο προστασίας δεδομένων χρηστών της Ευρωπαϊκής Ένωσης ή το PCI-DSS είναι ένα πρότυπο που αποσκοπεί στην προστασία των χρηστών πληρωμών με κάρτα.
Όταν θέλουμε να διαδώσουμε ή να φέρουμε βιετναμέζικα προϊόντα στη διεθνή αγορά, η συμμόρφωση με αυτά τα διεθνή πρότυπα είναι πολύ σημαντική.
Στο άμεσο μέλλον, για να διασφαλίσει τα δικαιώματα των χρηστών, η VinBigData προσπαθεί να δημιουργήσει διαφάνεια στη διαδικασία συλλογής και χρήσης δεδομένων, με τους σκοπούς και τους στόχους της συλλογής και χρήσης δεδομένων να δημοσιοποιούνται. Ειδικά όσον αφορά τα δεδομένα που ανήκουν σε ιδιώτες.
Αυτή τη στιγμή, η VinBigData έχει υπογράψει συμφωνίες με μια σειρά διεθνών οργανισμών για να διασφαλίσει την ασφάλεια και τα δικαιώματα των χρηστών. Στη συνέχεια, ελπίζουμε να υπάρξει συναίνεση μεταξύ των επιχειρήσεων και της κυβέρνησης για τη σύντομα δημιουργία ενός νομικού διαδρόμου, καθώς και νομικών προτύπων για την προστασία των δεδομένων των χρηστών.
PV: Όταν κατέχετε μεγάλα δεδομένα, πώς θα αντιμετωπίσει η τεχνητή νοημοσύνη κινδύνους ή ευπάθειες στην ασφάλεια των δεδομένων;
Κύριος Ντάο Ντουκ Μινχ: Αν χρησιμοποιηθεί σωστά, Τα δεδομένα θα αποτελέσουν ένα πολύτιμο περιουσιακό στοιχείο. Ο κίνδυνος απώλειας και διαρροής δεδομένων είναι ένα ζήτημα που απαιτεί μέτρα ασφαλείας από την αρχή.
Μέχρι να συμβεί κάτι, συχνά δεν κατανοούμε πλήρως τη σημασία της ασφάλειας των δεδομένων. Αλλά όταν συμβεί κάτι, η ζημιά θα είναι τεράστια. Πρόσφατα, διαρρεύσαν δεδομένα περισσότερων από 200 εκατομμυρίων χρηστών του Twitter. Οι πληροφορίες των χρηστών πουλήθηκαν δημόσια σε πολλές διαφορετικές πλατφόρμες. Ας υποθέσουμε ότι αν όλα αυτά τα εκατομμύρια χρηστών υπέβαλαν αγωγή, το Twitter θα υπέστη τεράστιες απώλειες.
Εάν η διαρροή δεδομένων είναι καθαρά τεχνική, η ζημιά είναι συνήθως μικρότερη. Αλλά εάν η διαρροή σχετίζεται με εκούσια κλοπή δεδομένων, οι συνέπειες είναι πολύ απρόβλεπτες. Για τα άτομα, οι κακοποιοί μπορούν να χρησιμοποιήσουν πλήρως τις διαρροές πληροφοριών για πολλούς διαφορετικούς παράνομους σκοπούς. Όσον αφορά τις επιχειρήσεις, η διαρροή πληροφοριών όχι μόνο προκαλεί τεράστιες οικονομικές απώλειες για την επίλυση σχετικών προβλημάτων, αλλά προκαλεί και ζημιά στη φήμη και το εμπορικό σήμα στην αγορά.
PV : Ποιες λύσεις χρειάζονται για να «διορθωθούν» αυτά τα τρωτά σημεία και να βελτιωθεί η ασφάλεια των δεδομένων, κύριε;
Κος Ντάο Ντουκ Μινχ: Η πρώτη και πιο χρήσιμη λύση είναι η πρόληψη από την αρχή: Κατασκευή εξοπλισμού για την προστασία της ασφάλειας και της προστασίας των πληροφοριών· πολυεπίπεδη προστασία· λειτουργία της σωστής διαδικασίας.
Συγκεκριμένα, η πρόληψη της ασφάλειας περιλαμβάνει πολλά διαφορετικά επίπεδα. Εκτός από την επένδυση σε εξοπλισμό ασφάλειας, είναι απαραίτητο να δημιουργηθεί ταυτόχρονα μια διαδικασία για την επεξεργασία και την αλληλεπίδραση με τους χρήστες και τα δεδομένα, να θεσπιστεί μια αυστηρή διαδικασία ελέγχου του κύκλου ζωής των δεδομένων και ταυτόχρονα να βελτιωθούν οι δεξιότητες και η ευαισθητοποίηση σχετικά με την ασφάλεια των πληροφοριών των χρηστών και της ομάδας λειτουργίας, καθώς και να εκχωρηθούν τα κατάλληλα δικαιώματα χρήσης δεδομένων (ποιος έχει το δικαίωμα πρόσβασης και χρήσης ποια δεδομένα;).
Από την άλλη πλευρά, οι επιχειρήσεις πρέπει επίσης να προσδιορίζουν και να είναι ευέλικτες στην εφαρμογή πολιτικών ασφάλειας δεδομένων, ταξινομώντας το επίπεδο ευαισθησίας και το επίπεδο ασφάλειας κάθε τύπου δεδομένων ώστε να έχουν τα κατάλληλα μέτρα ασφαλείας, αποφεύγοντας την μηχανική εφαρμογή πολιτικών ασφάλειας πληροφοριών πολύ αυστηρά, κάτι που μπορεί μερικές φορές να εμποδίσει τη διαδικασία ανάπτυξης και αξιοποίησης δεδομένων.
Ειδικά για τις μονάδες που χρησιμοποιούν δεδομένα για ανάπτυξη, η ταξινόμηση των δεδομένων είναι ακόμη πιο σημαντική. Επειδή τα δεδομένα θα πρέπει να κυκλοφορούν πολύ μεταξύ διαφορετικών τμημάτων.
Οι επιχειρήσεις πρέπει να είναι προετοιμασμένες για το χειρότερο σενάριο, με τους αρμόδιους εμπειρογνώμονες σε ετοιμότητα για την ελαχιστοποίηση των ζημιών στο μέγιστο δυνατό βαθμό.
PV : Το 2023 θα είναι η χρονιά των δεδομένων. Ποια είναι τα δυνατά και τα αδύνατα σημεία του Βιετνάμ στα δεδομένα; Κατά τη γνώμη σας, τι χρειάζεται να προετοιμαστούμε για μια επιτυχημένη χρονιά ψηφιακών δεδομένων;
Κος Dao Duc Minh: Το 2023 θα είναι η χρονιά των ψηφιακών δεδομένων για το Βιετνάμ. Όσον αφορά τα πλεονεκτήματα, έχουμε ένα πλεονέκτημα στα δεδομένα. Το Βιετνάμ έχει πληθυσμό 100 εκατομμυρίων. Εκ των οποίων, το ποσοστό των νέων που χρησιμοποιούν smartphones, προσωπικούς υπολογιστές κ.λπ. είναι υψηλό. Αυτό είναι ένα χαρακτηριστικό που προωθεί τα δεδομένα και θέτει προβλήματα που πρέπει να επιλυθούν από την τεχνητή νοημοσύνη στο Βιετνάμ. Το δεύτερο δυνατό σημείο είναι οι άνθρωποι. Συγκεκριμένα, το Βιετνάμ διαθέτει τους κορυφαίους παγκοσμίως ειδικούς στην τεχνητή νοημοσύνη. Επιπλέον, το νεαρό ανθρώπινο δυναμικό στην τεχνολογία πληροφοριών στη χώρα έχει πολύ καλή βάση στα μαθηματικά. Αυτοί είναι δύο ανθρώπινοι πόροι που μπορούν να συνδυαστούν για τη δημιουργία προϊόντων διεθνών προτύπων.
Όσον αφορά τους περιορισμούς, αντιμετωπίζουμε δυσκολίες στην τυποποίηση των δεδομένων. Στο Βιετνάμ, κάθε τόπος, κάθε επιχείρηση, κάθε διοικητική μονάδα έχει διαφορετικά δεδομένα. Τα δεδομένα δεν είναι τυποποιημένα, κατακερματισμένα και δεν είναι συγχρονισμένα. Χρειαζόμαστε επίσης έναν πιο συγκεκριμένο νομικό διάδρομο για την τυποποίηση των δεδομένων.
Για να έχει ένα επιτυχημένο έτος ψηφιακών δεδομένων, το Βιετνάμ πρέπει να κατανοήσει τα βασικά σημεία καθώς και να αξιοποιήσει τη δύναμη της τεχνολογίας. Ο συντονισμός μεταξύ των μεγάλων δεδομένων και της τεχνητής νοημοσύνης θα αποτελέσει τον μοχλό για το έτος ψηφιακών δεδομένων του Βιετνάμ.
Με την αξιοποίηση δεδομένων από όλα τα επίπεδα, από το κεντρικό έως το τοπικό, την κυβέρνηση και τις επιχειρήσεις, το Βιετνάμ θα είναι σε θέση να «διατηρήσει» τους πολύτιμους ψηφιακούς πόρους της χώρας. Σε συνδυασμό με προηγμένες πνευματικές τεχνολογίες, θα είμαστε σε θέση να «αξιοποιήσουμε» αυτόν τον πόρο στο έπακρο.
Το «ο Βιετναμέζος κατέχει τα βιετναμέζικα δεδομένα» βοηθά επίσης το Βιετνάμ να αποφύγει την κατάσταση της: Αγοράς πίσω προϊόντων που εκμεταλλεύεται με δικούς του πόρους.
Αυτή τη στιγμή, και συγκεκριμένα στην επανάσταση 4.0, το Βιετνάμ έχει πολλά πλεονεκτήματα σε σύγκριση με προηγούμενες επαναστάσεις. Έχουμε την ευκαιρία να αξιοποιήσουμε την τεχνολογία για να καλύψουμε γρήγορα τη διαφορά και να βελτιώσουμε τη θέση της χώρας στον παγκόσμιο χάρτη. Νομίζω ότι το κλειδί για την επίτευξη αυτού του στόχου ταχύτερα και πιο βιώσιμα είναι τα «δεδομένα» και οι «άνθρωποι».
PV: Έχοντας εργαστεί σε μια μεγάλη εταιρεία τεχνητής νοημοσύνης στις ΗΠΑ, τι σας έκανε να επιστρέψετε στο Βιετνάμ;
Κος Dao Duc Minh: Το 2017 επέστρεψα στο Βιετνάμ. Μπορεί να ειπωθεί ότι αυτό ήταν ένα σημείο καμπής. Ενώ εργαζόμουν στις ΗΠΑ, αν και εργαζόμουν σε πολλά μεγάλα κυβερνητικά έργα, τα αποτελέσματα που πέτυχα ήταν συχνά μόνο μερικά βήματα σε μια μεγάλη διαδικασία επεξεργασίας. Υπήρχαν ακόμη και φορές που δεν ήξερα αν οι λύσεις που ανέπτυξα είχαν χρησιμοποιηθεί ή όχι, επειδή οι διαδικασίες ασφαλείας του έργου ήταν πολύ αυστηρές.
Εν τω μεταξύ, το Βιετνάμ βρίσκεται σε στάδιο ανάπτυξης, υπάρχουν πολλά προβλήματα σχετικά με τα μεγάλα δεδομένα και την τεχνητή νοημοσύνη που πρέπει να επιλυθούν. Εκείνη την εποχή, έλαβα μια πρόσκληση από τον καθηγητή Vu Ha Van: Επιστροφή στο Βιετνάμ για να υλοποιήσω τον στόχο της ανάπτυξης βιετναμέζικων τεχνολογικών λύσεων για την εξυπηρέτηση της ζωής του λαού του Βιετνάμ.
Νιώθω ότι αν μείνω στο Βιετνάμ, θα μπορέσω να ασχοληθώ με προβλήματα με μεγαλύτερο αντίκτυπο. Αυτό είναι ένα από τα σημαντικά σημεία που κάνει την επιστροφή μου πολύ πιο ουσιαστική.
ΠΒ: Σας ευχαριστώ για αυτή τη συζήτηση.
- Οργάνωση παραγωγής: Viet Anh - Hong Van
- Ερμηνεύουν: Thi Uyen
- Φωτογραφία: Thanh Dat
Σχόλιο (0)