Πώς λειτουργεί η γεννήτρια εικόνων AI;
Οι γεννήτριες εικόνων που βασίζονται στην τεχνητή νοημοσύνη χρησιμοποιούν μοντέλα μηχανικής μάθησης που λαμβάνουν κείμενα που εισάγονται από τον χρήστη και δημιουργούν μία ή περισσότερες εικόνες που ταιριάζουν με την περιγραφή. Η εκπαίδευση αυτών των μοντέλων απαιτεί τεράστια σύνολα δεδομένων με εκατομμύρια εικόνες.
Η δημιουργία εικόνων με τεχνητή νοημοσύνη γίνεται όλο και πιο εύκολη. Φωτογραφία: Ijnet
Ενώ ούτε το Midjourney ούτε το DALL-E 2 αποκαλύπτουν δημόσια τον τρόπο λειτουργίας των αλγορίθμων τους, οι περισσότερες γεννήτριες εικόνων τεχνητής νοημοσύνης χρησιμοποιούν μια διαδικασία που ονομάζεται διάχυση. Τα μοντέλα διάχυσης λειτουργούν προσθέτοντας τυχαίο «θόρυβο» στα δεδομένα εκπαίδευσης και στη συνέχεια μαθαίνουν να ανακατασκευάζουν τα δεδομένα αφαιρώντας τα θορυβώδη μέρη. Το μοντέλο επαναλαμβάνει αυτήν τη διαδικασία μέχρι να έχει μια εικόνα που ταιριάζει με την είσοδο.
Αυτό διαφέρει από τα μεγάλα γλωσσικά μοντέλα όπως το ChatGPT. Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται σε δεδομένα κειμένου χωρίς ετικέτες, τα οποία αναλύουν για να μάθουν γλωσσικά μοτίβα και να δημιουργήσουν ανθρώπινες απαντήσεις.
Στην παραγωγική τεχνητή νοημοσύνη, η είσοδος επηρεάζει την έξοδο. Εάν ένας χρήστης καθορίσει ότι θέλει να συμπεριλάβει μόνο άτομα συγκεκριμένου χρώματος δέρματος ή φύλου σε μια εικόνα, το μοντέλο θα το λάβει αυτό υπόψη.
Ωστόσο, εκτός από αυτό, το μοντέλο τείνει επίσης να επιστρέφει συγκεκριμένες εικόνες από προεπιλογή. Αυτό συχνά οφείλεται στην έλλειψη ποικιλομορφίας στα δεδομένα εκπαίδευσης.
Μια πρόσφατη μελέτη διερεύνησε τον τρόπο με τον οποίο το Midjourney οπτικοποιεί φαινομενικά γενικούς όρους, συμπεριλαμβανομένων εξειδικευμένων επαγγελμάτων στα μέσα ενημέρωσης (όπως «αναλυτής ειδήσεων», «σχολιαστής ειδήσεων» και «ελεγκτής γεγονότων») και γενικότερων επαγγελμάτων (όπως «δημοσιογράφος», «ρεπόρτερ», «δημοσιογραφία»).
Η μελέτη διεξήχθη τον Αύγουστο του περασμένου έτους και τα αποτελέσματα επανεξετάστηκαν έξι μήνες αργότερα για να διαπιστωθεί πώς είχε βελτιωθεί το σύστημα κατά τη διάρκεια αυτού του χρόνου. Συνολικά, οι ερευνητές ανέλυσαν περισσότερες από 100 εικόνες που δημιουργήθηκαν από τεχνητή νοημοσύνη κατά τη διάρκεια αυτού του χρόνου.
Ηλικιακός ρατσισμός και σεξισμός
Για συγκεκριμένα επαγγέλματα, ο μεγαλύτερος σε ηλικία είναι πάντα άνδρας. Φωτογραφία: IJN
Για μη συγκεκριμένους τίτλους εργασίας, το Midjourney εμφανίζει μόνο εικόνες νεότερων ανδρών και γυναικών. Για συγκεκριμένους ρόλους, εμφανίζονται τόσο νεότεροι όσο και μεγαλύτεροι σε ηλικία άνθρωποι, αλλά οι μεγαλύτεροι σε ηλικία άνθρωποι είναι πάντα άνδρες.
Αυτά τα αποτελέσματα ενισχύουν έμμεσα μια σειρά από στερεότυπα, συμπεριλαμβανομένης της υπόθεσης ότι οι ηλικιωμένοι δεν εργάζονται σε μη εξειδικευμένες θέσεις, ότι μόνο οι ηλικιωμένοι άνδρες είναι κατάλληλοι για επαγγελματική εργασία και ότι η λιγότερο εξειδικευμένη εργασία συνήθως προορίζεται για γυναίκες.
Υπάρχουν επίσης αξιοσημείωτες διαφορές στον τρόπο που παρουσιάζονται οι άνδρες και οι γυναίκες. Για παράδειγμα, οι γυναίκες είναι νεότερες και χωρίς ρυτίδες, ενώ οι άνδρες «επιτρέπεται» να έχουν ρυτίδες.
Η Τεχνητή Νοημοσύνη φαίνεται επίσης να αναπαριστά το φύλο ως δυαδικό, αντί να δείχνει παραδείγματα πιο ρευστής έκφρασης φύλου.
Φυλετικές προκαταλήψεις
Οι εικόνες για «δημοσιογράφους» ή «δημοσιογράφους» συχνά δείχνουν μόνο λευκούς. Φωτογραφία: IJN
Όλες οι εικόνες που επιστρέφονται για όρους όπως «δημοσιογράφος», «ρεπόρτερ» εμφανίζουν μόνο εικόνες λευκών ανθρώπων.
Αυτό μπορεί να αντικατοπτρίζει την έλλειψη ποικιλομορφίας και την υποεκπροσώπηση στα υποκείμενα δεδομένα εκπαίδευσης της Τεχνητής Νοημοσύνης.
Ταξισμός και συντηρητισμός
Όλοι οι χαρακτήρες στην εικόνα έχουν επίσης μια «συντηρητική» εμφάνιση. Για παράδειγμα, κανένας τους δεν έχει τατουάζ, piercing, ασυνήθιστα χτενίσματα ή οποιαδήποτε άλλα χαρακτηριστικά που θα τους διαφοροποιούσαν από τις παραδοσιακές απεικονίσεις.
Πολλοί άνθρωποι φορούν επίσης επίσημα ρούχα, όπως πουκάμισα και κοστούμια. Αυτά αποτελούν δείκτες των προσδοκιών της τάξης. Ενώ αυτό μπορεί να είναι κατάλληλο για ορισμένους ρόλους, όπως οι τηλεοπτικοί παρουσιαστές, δεν αποτελεί απαραίτητα μια πραγματική αντανάκλαση του τρόπου με τον οποίο ντύνονται γενικά οι δημοσιογράφοι ή οι δημοσιογράφοι.
Αστυφιλία
Όλες οι εικόνες έχουν τοποθετηθεί στην πόλη από προεπιλογή, αν και δεν υπάρχει γεωγραφική αναφορά. Φωτογραφία: IJN
Παρά το γεγονός ότι δεν προσδιορίζεται καμία τοποθεσία ή γεωγραφικό πλαίσιο, οι εικόνες που επιστρέφονται από την τεχνητή νοημοσύνη περιλαμβάνουν αστικούς χώρους όπως ουρανοξύστες ή πολυσύχναστους δρόμους. Αυτό δεν ισχύει, επειδή λίγο περισσότερο από το ήμισυ του παγκόσμιου πληθυσμού ζει σε πόλεις.
Απαρχαιωμένος
Οι εικόνες των εργαζομένων στα μέσα ενημέρωσης περιλαμβάνουν ξεπερασμένες τεχνολογίες όπως γραφομηχανές, εκτυπωτές και vintage φωτογραφικές μηχανές.
Δεδομένου ότι πολλοί επαγγελματίες σήμερα μοιάζουν μεταξύ τους, η Τεχνητή Νοημοσύνη φαίνεται να βασίζεται σε πιο διαφοροποιημένες τεχνολογίες (συμπεριλαμβανομένων ξεπερασμένων και αχρησιμοποίητων) για να καταστήσει τους περιγραφόμενους ρόλους πιο διακριτούς.
Επομένως, εάν δημιουργείτε τις δικές σας εικόνες τεχνητής νοημοσύνης, λάβετε υπόψη πιθανές προκαταλήψεις κατά τη σύνταξη περιγραφών. Διαφορετικά, ενδέχεται να ενισχύετε ακούσια επιβλαβή στερεότυπα που η κοινωνία έχει περάσει δεκαετίες προσπαθώντας να καταρρίψει.
Χοάνγκ Τον (σύμφωνα με το IJN)
[διαφήμιση_2]
Πηγή
Σχόλιο (0)