Εμπνευσμένο από τους μηχανισμούς του λάρυγγα, ένα νέο μοντέλο τεχνητής νοημοσύνης (AI) μπορεί να δημιουργήσει και να κατανοήσει προσομοιώσεις καθημερινών ήχων.
Αυτή η μέθοδος μπορεί να υποστηρίξει την ανάπτυξη νέων ηχητικών διεπαφών για τους τομείς της ψυχαγωγίας και της εκπαίδευσης .

Η μίμηση ήχων με τη φωνή σας είναι σαν να σχεδιάζετε μια γρήγορη εικόνα για να μεταφέρετε κάτι που έχετε δει. Αντί να χρησιμοποιήσετε μολύβι για να απεικονίσετε την εικόνα, χρησιμοποιείτε τις φωνητικές σας εκφράσεις για να εκφράσετε τον ήχο. Ενώ αυτό μπορεί να φαίνεται δύσκολο, είναι κάτι που όλοι κάνουν φυσικά. Δοκιμάστε να μιμηθείτε μια σειρήνα ασθενοφόρου, ένα κρώξιμο κορακιού ή ένα κουδούνι για να το βιώσετε αυτό.
Εμπνευσμένοι από την γνωστική επιστήμη σχετικά με τον τρόπο που επικοινωνούμε, ερευνητές στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης (CSAIL) του MIT ανέπτυξαν ένα σύστημα Τεχνητής Νοημοσύνης ικανό να δημιουργεί προσομοιώσεις ήχου που μοιάζουν με ανθρώπους χωρίς εκπαίδευση και χωρίς να έχουν «ακούσει» ποτέ πριν ήχους που έχουν προσομοιωθεί από ανθρώπους.
Για να το πετύχουν αυτό, η ερευνητική ομάδα σχεδίασε το σύστημά της ώστε να παράγει και να ερμηνεύει τον ήχο με τρόπο που μιμείται την ανθρώπινη ομιλία. Ξεκίνησαν κατασκευάζοντας ένα μοντέλο της ανθρώπινης φωνητικής οδού, προσομοιώνοντας τον τρόπο με τον οποίο οι δονήσεις από τον λάρυγγα διαμορφώνονται από τον λαιμό, τη γλώσσα και τα χείλη. Στη συνέχεια, χρησιμοποίησαν έναν αλγόριθμο τεχνητής νοημοσύνης εμπνευσμένο από τις γνωστικές αρχές για να χειριστούν αυτό το μοντέλο, δημιουργώντας προσομοιώσεις ήχου λαμβάνοντας παράλληλα υπόψη τους συγκεκριμένους τρόπους φωνητικής επικοινωνίας σε κάθε πλαίσιο.
Αυτό το μοντέλο μπορεί να αναπαράγει μια μεγάλη ποικιλία περιβαλλοντικών ήχων, όπως το θρόισμα των φύλλων, το συριγμό των φιδιών ή τη σειρήνα ενός ασθενοφόρου. Επιπλέον, το μοντέλο μπορεί να λειτουργήσει αντίστροφα για να προβλέψει πραγματικούς ήχους από προσομοιώσεις ανθρώπινης ομιλίας, όπως ακριβώς ορισμένα συστήματα υπολογιστικής όρασης αναπαράγουν εικόνες υψηλής ποιότητας από σκίτσα. Για παράδειγμα, το μοντέλο μπορεί να διακρίνει με ακρίβεια τον ήχο ενός νιαουρίσματος γάτας και τον ήχο ενός γουργουρίσματος γάτας όταν μιμείται ένας άνθρωπος.
Στο μέλλον, αυτό το μοντέλο θα μπορούσε να οδηγήσει σε πιο διαισθητικές διεπαφές «βασισμένες στην προσομοίωση» για τους σχεδιαστές ήχου, περισσότερους χαρακτήρες τεχνητής νοημοσύνης που μοιάζουν με ανθρώπους στην εικονική πραγματικότητα, ακόμη και σε μεθόδους για την υποβοήθηση των μαθητών στην εκμάθηση ξένων γλωσσών.
Οι κύριοι συγγραφείς της μελέτης — οι μεταπτυχιακοί φοιτητές Kartik Chandra (MIT CSAIL), Karima Ma και ο ερευνητής Matthew Caren — σημειώνουν ότι οι ερευνητές γραφικών υπολογιστών έχουν αναγνωρίσει εδώ και καιρό ότι ο ρεαλισμός δεν είναι ο απώτερος στόχος της οπτικής έκφρασης. Για παράδειγμα, ένας αφηρημένος πίνακας ή ένα παιδικό σκίτσο μπορεί να είναι εξίσου εκφραστικό με μια φωτογραφία.
Η τέχνη της μίμησης του ήχου σε 3 στάδια
Η ομάδα ανέπτυξε τρεις ολοένα και πιο εξελιγμένες εκδοχές του μοντέλου για να τις συγκρίνουν με προσομοιώσεις ανθρώπινου ήχου. Πρώτον, δημιούργησαν ένα βασικό μοντέλο που επικεντρώθηκε αποκλειστικά στην παραγωγή προσομοιώσεων που έμοιαζαν όσο το δυνατόν περισσότερο με πραγματικούς ήχους, αλλά αυτό το μοντέλο δεν ταίριαζε με την ανθρώπινη συμπεριφορά.
Στη συνέχεια, η ομάδα σχεδίασε ένα δεύτερο μοντέλο που ονομάζεται μοντέλο «επικοινωνίας». Σύμφωνα με τον Caren, αυτό το μοντέλο λαμβάνει υπόψη τα χαρακτηριστικά στοιχεία του ήχου για τον ακροατή. Για παράδειγμα, μπορείτε να μιμηθείτε τον ήχο ενός πλοίου προσομοιώνοντας το βρυχηθμό της μηχανής του, καθώς αυτό είναι το πιο αναγνωρίσιμο χαρακτηριστικό του ήχου, αν και δεν είναι το πιο σημαντικό στοιχείο (όπως ο ήχος του νερού που χτυπάει, για παράδειγμα). Αυτό το μοντέλο ήταν μια σημαντική βελτίωση σε σχέση με την πρώτη έκδοση.
Τέλος, η ερευνητική ομάδα πρόσθεσε ένα ακόμη επίπεδο συλλογισμού στο μοντέλο. Ο Chandra εξήγησε: «Οι προσομοιωμένοι ήχοι μπορεί να διαφέρουν ανάλογα με την προσπάθεια που καταβάλλετε. Η δημιουργία ακριβών ήχων απαιτεί χρόνο και ενέργεια». Το πλήρες μοντέλο της ομάδας λαμβάνει υπόψη αυτό, αποφεύγοντας ήχους που είναι πολύ γρήγοροι, πολύ δυνατοί ή υπερβολικά υψηλοί/χαμηλοί - στοιχεία που είναι λιγότερο πιθανό να εμφανιστούν στην κανονική επικοινωνία. Το αποτέλεσμα είναι πιο ανθρώπινες προσομοιώσεις ήχου, που αντικατοπτρίζουν πολλές από τις αποφάσεις που λαμβάνουν οι άνθρωποι όταν μιμούνται παρόμοιους ήχους.
Προς μια πιο εκφραστική τεχνολογία ήχου.
Αυτό το μοντέλο θα μπορούσε να βοηθήσει τους καλλιτέχνες να επικοινωνούν τον ήχο με υπολογιστικά συστήματα πιο αποτελεσματικά, βοηθώντας τους κινηματογραφιστές και τους δημιουργούς περιεχομένου στην παραγωγή ήχων τεχνητής νοημοσύνης που είναι πιο σχετικοί με συγκεκριμένα περιβάλλοντα. Θα μπορούσε επίσης να επιτρέψει στους μουσικούς να αναζητούν γρήγορα σε βάσεις δεδομένων ήχων προσομοιώνοντας έναν ήχο που είναι δύσκολο να περιγραφεί γραπτώς.
Εν τω μεταξύ, η ερευνητική ομάδα διερευνά εφαρμογές αυτού του μοντέλου σε άλλους τομείς, όπως η ανάπτυξη της γλώσσας, ο τρόπος με τον οποίο τα βρέφη μαθαίνουν να μιλάνε και η μιμητική συμπεριφορά πτηνών όπως οι παπαγάλοι ή τα ωδικά πτηνά.
Ωστόσο, το τρέχον μοντέλο εξακολουθεί να έχει ορισμένους περιορισμούς: δυσκολεύεται με σύμφωνα όπως το «z», γεγονός που οδηγεί σε ανακριβείς προσομοιώσεις ήχων όπως το βουητό. Επιπλέον, δεν μπορεί ακόμη να αναπαράγει τον τρόπο με τον οποίο οι άνθρωποι μιμούνται την ομιλία, τη μουσική ή τους διαφορετικούς ήχους που μιμούνται σε διάφορες γλώσσες, όπως οι καρδιακοί παλμοί.
Ο καθηγητής γλωσσολογίας Ρόμπερτ Χόκινς στο Πανεπιστήμιο Στάνφορντ σχολίασε: «Η μετάβαση από τον ήχο μιας πραγματικής γάτας στη λέξη «νιάου» καταδεικνύει την πολύπλοκη αλληλεπίδραση μεταξύ φυσιολογίας, κοινωνικής συλλογιστικής και επικοινωνίας στην εξέλιξη της γλώσσας. Αυτό το μοντέλο αποτελεί ένα συναρπαστικό βήμα προς τα εμπρός στην τυποποίηση και τον έλεγχο θεωριών σχετικά με αυτές τις διαδικασίες».
(Πηγή: MIT News)
[διαφήμιση_2]
Πηγή: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






Σχόλιο (0)