Νέα έρευνα επιτρέπει στους ανθρώπους να προσαρμόζουν τις ενέργειες ενός ρομπότ σε πραγματικό χρόνο, παρόμοια με τον τρόπο που θα έδιναν ανατροφοδότηση σε ένα άλλο άτομο.
Φανταστείτε ένα ρομπότ να σας βοηθά να πλένετε τα πιάτα. Του ζητάτε να πάρει ένα μπολ με σαπούνι από τον νεροχύτη, αλλά η λαβή του δεν πιάνει ακριβώς εκεί που χρειάζεται.
Με ένα νέο πλαίσιο που αναπτύχθηκε από ερευνητές στο MIT και την NVIDIA, μπορείτε να ελέγχετε τη συμπεριφορά ενός ρομπότ με απλές χειρονομίες. Μπορείτε να δείξετε ένα μπολ ή να σχεδιάσετε μια διαδρομή στην οθόνη ή απλώς να σπρώξετε το χέρι του ρομπότ προς τη σωστή κατεύθυνση.
Σε αντίθεση με άλλες προσεγγίσεις για την τροποποίηση της συμπεριφοράς των ρομπότ, αυτή η τεχνική δεν απαιτεί από τον χρήστη να συλλέξει νέα δεδομένα και να επανεκπαιδεύσει το μοντέλο μηχανικής μάθησης που ελέγχει το ρομπότ. Αντίθετα, επιτρέπει στο ρομπότ να χρησιμοποιεί οπτική ανθρώπινη ανατροφοδότηση σε πραγματικό χρόνο για να επιλέξει την ακολουθία ενεργειών που ταιριάζει καλύτερα στην πρόθεση του χρήστη.
Όταν οι ερευνητές δοκίμασαν αυτό το πλαίσιο, το ποσοστό επιτυχίας του ήταν 21% υψηλότερο από μια εναλλακτική προσέγγιση που δεν χρησιμοποιούσε ανθρώπινη παρέμβαση.
Στο μέλλον, αυτό το πλαίσιο θα μπορούσε να διευκολύνει έναν χρήστη να δώσει οδηγίες σε ένα ρομπότ που έχει εκπαιδευτεί στο εργοστάσιο για να εκτελεί διάφορες οικιακές εργασίες, ακόμη και αν το ρομπότ δεν έχει ξαναδεί το περιβάλλον ή τα αντικείμενα σε αυτό το σπίτι.
«Δεν μπορούμε να περιμένουμε από τους απλούς χρήστες να συλλέγουν δεδομένα και να τελειοποιούν ένα μοντέλο νευρωνικού δικτύου. Περιμένουν ότι το ρομπότ θα λειτουργεί αμέσως μόλις το βάλετε στη συσκευασία και, αν κάτι πάει στραβά, χρειάζονται έναν διαισθητικό μηχανισμό για να το διορθώσουν. Αυτή είναι η πρόκληση που αντιμετωπίσαμε σε αυτή την εργασία», λέει ο Felix Yanwei Wang, μεταπτυχιακός φοιτητής στο τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών (EECS) στο MIT και επικεφαλής συγγραφέας της μελέτης.
Ελαχιστοποίηση απόκλισης
Πρόσφατα, οι ερευνητές χρησιμοποίησαν προ-εκπαιδευμένα μοντέλα γενετικής τεχνητής νοημοσύνης για να μάθουν μια «πολιτική» — ένα σύνολο κανόνων που ακολουθεί ένα ρομπότ για να ολοκληρώσει μια εργασία. Αυτά τα μοντέλα μπορούν να λύσουν πολλές πολύπλοκες εργασίες.
Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο εκτίθεται μόνο σε έγκυρες κινήσεις ρομπότ, επομένως μαθαίνει να δημιουργεί κατάλληλες τροχιές κίνησης.
Ωστόσο, αυτό δεν σημαίνει ότι κάθε ενέργεια που κάνει ένα ρομπότ θα ανταποκρίνεται στις πραγματικές προσδοκίες του χρήστη. Για παράδειγμα, ένα ρομπότ μπορεί να εκπαιδευτεί να μαζεύει κουτιά από ένα ράφι χωρίς να τα αναποδογυρίζει, αλλά μπορεί να μην καταφέρει να φτάσει σε ένα κουτί στη βιβλιοθήκη κάποιου, εάν η διάταξη της βιβλιοθήκης είναι διαφορετική από αυτήν που είδε κατά την εκπαίδευση.
Για να διορθώσουν τέτοια σφάλματα, οι μηχανικοί συχνά συλλέγουν πρόσθετα δεδομένα για νέες εργασίες και επανεκπαιδεύουν το μοντέλο, μια δαπανηρή και χρονοβόρα διαδικασία που απαιτεί εξειδίκευση στη μηχανική μάθηση.
Αντ' αυτού, η ομάδα του MIT θέλει να επιτρέψει στους χρήστες να προσαρμόζουν τη συμπεριφορά του ρομπότ αμέσως μόλις κάνει κάποιο λάθος.
Ωστόσο, εάν ένας άνθρωπος παρέμβει στη διαδικασία λήψης αποφάσεων του ρομπότ, μπορεί κατά λάθος να προκαλέσει στο γενετικό μοντέλο να επιλέξει μια μη έγκυρη ενέργεια. Το ρομπότ μπορεί να πάρει το κουτί που θέλει ο άνθρωπος, αλλά μπορεί να αναποδογυρίσει βιβλία στο ράφι κατά τη διάρκεια της διαδικασίας.
«Θέλουμε οι χρήστες να αλληλεπιδρούν με το ρομπότ χωρίς να κάνουν τέτοια σφάλματα, επιτυγχάνοντας έτσι συμπεριφορά που ταιριάζει καλύτερα στις προθέσεις του χρήστη, διασφαλίζοντας παράλληλα την εγκυρότητα και τη σκοπιμότητα», δήλωσε ο Felix Yanwei Wang.
Βελτιώστε την ικανότητα λήψης αποφάσεων
Για να διασφαλιστεί ότι αυτές οι αλληλεπιδράσεις δεν θα προκαλέσουν την εκτέλεση μη έγκυρων ενεργειών από το ρομπότ, η ομάδα χρησιμοποιεί μια ειδική διαδικασία δειγματοληψίας. Αυτή η τεχνική βοηθά το μοντέλο να επιλέξει την ενέργεια από ένα σύνολο έγκυρων επιλογών που ταιριάζει καλύτερα στους στόχους του χρήστη.
«Αντί να επιβάλλουμε τις προθέσεις του χρήστη, βοηθάμε το ρομπότ να κατανοήσει τις προθέσεις του, ενώ παράλληλα αφήνουμε τη διαδικασία δειγματοληψίας να κυμαίνεται γύρω από τις συμπεριφορές που έχει μάθει», δήλωσε ο Felix Yanwei Wang.
Χάρη σε αυτήν την προσέγγιση, το ερευνητικό τους πλαίσιο ξεπέρασε άλλες μεθόδους σε πειράματα προσομοίωσης, καθώς και σε δοκιμές με έναν πραγματικό ρομποτικό βραχίονα σε μια κουζίνα-μοντέλο.
Ενώ αυτή η μέθοδος δεν ολοκληρώνει πάντα την εργασία αμέσως, έχει ένα μεγάλο πλεονέκτημα για τον χρήστη: μπορεί να διορθώσει το ρομπότ μόλις εντοπίσει ένα σφάλμα, αντί να περιμένει το ρομπότ να ολοκληρώσει την εργασία και στη συνέχεια να δώσει νέες οδηγίες.
Επιπλέον, αφού ο χρήστης σπρώξει απαλά το ρομπότ μερικές φορές για να το καθοδηγήσει να σηκώσει το σωστό μπολ, το ρομπότ μπορεί να θυμηθεί αυτή τη διόρθωση και να την ενσωματώσει σε μελλοντική μάθηση, έτσι ώστε την επόμενη μέρα το ρομπότ να μπορεί να σηκώσει το σωστό μπολ χωρίς να χρειάζεται να καθοδηγηθεί ξανά.
«Αλλά το κλειδί για αυτή τη συνεχή βελτίωση είναι να υπάρχει ένας μηχανισμός για την αλληλεπίδραση των χρηστών με το ρομπότ, και αυτό ακριβώς δείξαμε σε αυτή τη μελέτη», δήλωσε ο Felix Yanwei Wang.
Στο μέλλον, η ομάδα θέλει να επιταχύνει τη διαδικασία δειγματοληψίας διατηρώντας ή βελτιώνοντας παράλληλα την απόδοση. Θέλουν επίσης να δοκιμάσουν τη μέθοδο σε νέα περιβάλλοντα για να αξιολογήσουν την προσαρμοστικότητα του ρομπότ.
(Πηγή: MIT News)
[διαφήμιση_2]
Πηγή: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Σχόλιο (0)