Κάτι που πρόκειται να γίνει ανάμνηση στο διαδίκτυο.

Η έκρηξη περιεχομένου τεχνητής νοημοσύνης έχει δημιουργήσει πρόβλημα αξιοπιστίας, καθώς τα αμιγώς ανθρώπινα δεδομένα γίνονται ολοένα και πιο σπάνια.

ZNews•09/06/2025

Το καθαρά ανθρώπινο περιεχόμενο βρίσκεται στη λίστα με τους σπάνιους πόρους στην εποχή της Τεχνητής Νοημοσύνης. Φωτογραφία: Advertising Week .

Η εμφάνιση του ChatGPT το 2022 πυροδότησε μια έκρηξη περιεχομένου που υποστηρίζεται από την Τεχνητή Νοημοσύνη σε όλο το διαδίκτυο. Η Gartner προβλέπει ότι έως το 2026, το 90% του περιεχομένου του διαδικτύου, συμπεριλαμβανομένων κειμένου, εικόνων και βίντεο , θα παράγεται από την Τεχνητή Νοημοσύνη.

Η Τεχνητή Νοημοσύνη είναι εκπαιδευμένη να κατανοεί την ανθρώπινη σκέψη. Ωστόσο, εάν δεν υπάρχουν πλέον αμιγώς δεδομένα που παράγονται από τον άνθρωπο, αυτή η τεχνολογία θα χρησιμοποιεί τις δικές της παλιές πληροφορίες, όπως ένα φωτοτυπικό μηχάνημα που αντιγράφει τον εαυτό του.

Πολλοί ερευνητές συγκρίνουν το πρωτότυπο, ανθρωπογενές περιεχόμενο με ένα είδος «καθαρού» χάλυβα στη σύγχρονη εποχή, που ισοδυναμεί με σπανιότητα και δυσκολία εύρεσης. Φοβούνται ότι αν κανείς δεν αποθηκεύσει αντίγραφα δεδομένων πριν από το 2022, το διαδίκτυο θα χάσει εντελώς την ακεραιότητά του.

Μια ιστορική καταστροφή επαναλαμβάνεται.

Στην μεταπυρηνική εποχή, οι επιστήμονες ανακάλυψαν ότι όλος ο χάλυβας που παρήχθη μετά το 1945 ήταν μολυσμένος. Οι ατομικές βόμβες είχαν μολύνει την ατμόσφαιρα με ακτινοβολία, η οποία εξαπλώθηκε στα μέταλλα που παράγονταν σε αυτό το περιβάλλον.

Αυτό είχε ως αποτέλεσμα μεγάλο μέρος του χάλυβα να καταστεί άχρηστο για εξοπλισμό μέτρησης υψηλής ακρίβειας, όπως μετρητές Γκάιγκερ και πολλούς άλλους ευαίσθητους αισθητήρες. Η λύση ήταν η ανάκτηση παλιού χάλυβα από πολεμικά πλοία που βυθίστηκαν πριν από τον πόλεμο, τα οποία βρίσκονταν βαθιά στον πυθμένα του ωκεανού, όπου δεν θα επηρεαζόταν από ραδιενεργά φαινόμενα.

Για τους προγραμματιστές τεχνητής νοημοσύνης, τα περισσότερα μοντέλα εκπαιδεύονται χρησιμοποιώντας τεράστια σύνολα δεδομένων από ανθρώπινα δεδομένα που συλλέγονται από το διαδίκτυο. Αλλά αν το σημερινό λογισμικό μαθαίνει από κείμενο που δημιούργησε στο παρελθόν, τα μοντέλα κινδυνεύουν να καταρρεύσουν, μειώνοντας την πρωτοτυπία και το βάθος τους.

Το θωρηκτό Χίντενμπουργκ, το οποίο βυθίστηκε κατά τη διάρκεια του Α' Παγκοσμίου Πολέμου, ανασύρθηκε. Φωτογραφία: Reuters Connect.

Αυτό καθιστά το περιεχόμενο που δημιουργείται από τον άνθρωπο, ειδικά αυτό που δημιουργήθηκε πριν από το 2022, πιο πολύτιμο, σύμφωνα με τον Will Allen, αντιπρόεδρο της Cloudflare, η οποία διαχειρίζεται ένα από τα μεγαλύτερα δίκτυα διαδικτύου στον κόσμο . Υποστηρίζει ότι βοηθά τα μοντέλα Τεχνητής Νοημοσύνης, καθώς και την κοινωνία στο σύνολό της, να παραμένουν προσγειωμένα σε μια κοινή πραγματικότητα. Τα πράγματα θα γίνονταν περίπλοκα χωρίς αυτή τη βάση.

Οι πλατφόρμες είναι ιδιαίτερα σημαντικές σε τομείς υψηλής τεχνολογίας, όπως η ιατρική, η νομική ή η φορολογία. Για παράδειγμα, ένας γιατρός θα πρέπει να βασίζεται σε περιεχόμενο που έχει γραφτεί από ανθρώπινους εμπειρογνώμονες και σε έρευνα γεγονότων, όχι σε πηγές που δημιουργούνται από τεχνητή νοημοσύνη.

Αυτή η απειλή γίνεται επίσης πραγματικότητα. Ένα χρόνο μετά την έναρξη του ChatGPT, ο επενδυτής επιχειρηματικών κεφαλαίων Paul Graham αφηγήθηκε ότι έπρεπε να αναζητήσει παλαιότερο περιεχόμενο για μια απλή αναζήτηση για να αποφύγει το «δόλωμα SEO που δημιουργείται από την τεχνητή νοημοσύνη». Ο Malte Ubl, CTO της νεοσύστατης εταιρείας τεχνητής νοημοσύνης Vercel, απάντησε ότι ο Graham ουσιαστικά φιλτράρει το διαδίκτυο για περιεχόμενο «πριν μολυνθεί από την τεχνητή νοημοσύνη».

Ο Ματ Ρίκαρντ, πρώην μηχανικός της Google, συμφωνεί. Έγραψε σε μια ανάρτηση ιστολογίου το 2023 ότι η Τεχνητή Νοημοσύνη συλλέγει δεδομένα από το διαδίκτυο, αλλά όλο και περισσότερο, μεγάλο μέρος του περιεχομένου στο διαδίκτυο δημιουργείται από την ίδια την Τεχνητή Νοημοσύνη. «Η έξοδος του Chatner είναι πολύ δύσκολο να ανιχνευθεί. Η εύρεση δεδομένων εκπαίδευσης που δεν έχουν παραποιηθεί από την Τεχνητή Νοημοσύνη θα γίνεται ολοένα και πιο δύσκολη», εξήγησε ο Ρίκαρντ.

Η «αναζήτηση χάλυβα στον βυθό»

Η απάντηση σε αυτό το πρόβλημα έγκειται στη διατήρηση της ανθρωπογενούς έκδοσης δεδομένων πριν από την άνθηση της τεχνητής νοημοσύνης. Ένας από τους πρωτοπόρους σε αυτόν τον τομέα είναι ο John Graham-Cumming, μέλος του διοικητικού συμβουλίου και Chief Technology Officer της Cloudflare.

Το έργο του, ο ιστότοπος LowBackgroundSteel.ai, παραθέτει σύνολα δεδομένων, διαδρομές και μέσα που υπήρχαν πριν από το 2022. Ένα παράδειγμα που δίνεται είναι το Arctic Code Vault του GitHub, ένα αρχείο λογισμικού ανοιχτού κώδικα που είναι θαμμένο σε ένα εγκαταλελειμμένο ανθρακωρυχείο στη Νορβηγία, το οποίο διατηρεί δεδομένα από τον Φεβρουάριο του 2020.

Το έργο διατήρησης ανθρώπινων δεδομένων του Graham-Cumming. Φωτογραφία: Lowbackgroundsteel.ai.

Μια άλλη πηγή δεδομένων που ανέφερε ήταν το «wordfreq», ένα έργο που παρακολουθεί τη συχνότητα χρήσης λέξεων στο διαδίκτυο. Η γλωσσολόγος Robyn Speer το διατήρησε μέχρι το 2021.

«Η γενιά της τεχνητής νοημοσύνης έχει μολύνει τα δεδομένα», δήλωσε η Speer. Έδωσε ως παράδειγμα την υπερβολική εμμονή του ChatGPT με τη λέξη «delve», η οποία οδήγησε στην αυξημένη εμφάνισή της πρόσφατα. Αυτό διαστρεβλώνει τα δεδομένα στο διαδίκτυο, καθιστώντας τα λιγότερο αξιόπιστα στην απεικόνιση του τρόπου με τον οποίο οι άνθρωποι γράφουν και σκέφτονται.

Τα μοντέλα τεχνητής νοημοσύνης που έχουν εκπαιδευτεί μερικώς σε συνθετικό περιεχόμενο μπορούν να επιταχύνουν τις ροές εργασίας και να εξαλείψουν την κουραστική διαδικασία στις δημιουργικές εργασίες. Ωστόσο, πέρα από την απλή απόδοση, οι χρήστες ενδέχεται να χρειαστεί να βασίζονται σε πρωτότυπο περιεχόμενο που δημιουργείται από ανθρώπους για ακριβείς αξιολογήσεις, όπως ακριβώς και η χρήση "χάλυβα χαμηλού επιπέδου" για ακριβείς μετρήσεις.

Οι επιστήμονες έχουν αναπτύξει διάφορες μεθόδους για την παραγωγή χάλυβα χρησιμοποιώντας καθαρό οξυγόνο. Σύμφωνα με το Business Insider , αυτό μας υπενθυμίζει ότι η διατήρηση του παρελθόντος μπορεί να είναι ο μόνος τρόπος για να οικοδομήσουμε ένα αξιόπιστο μέλλον.

Πηγή: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html