Νέα έρευνα επιτρέπει στους ανθρώπους να προσαρμόζουν τις ενέργειες των ρομπότ σε πραγματικό χρόνο, παρόμοια με τον τρόπο που θα έδιναν ανατροφοδότηση σε ένα άλλο άτομο.

Φανταστείτε ένα ρομπότ που σας βοηθά να πλένετε πιάτα. Του ζητάτε να πάρει ένα μπολ με σαπούνι από τον νεροχύτη, αλλά οι λαβές του δεν το πιάνουν ακριβώς εκεί που χρειάζεται.
Με ένα νέο πλαίσιο μεθοδολογίας που αναπτύχθηκε από ερευνητές στο MIT και την NVIDIA, μπορείτε να ελέγχετε τη συμπεριφορά του ρομπότ με απλές χειρονομίες. Μπορείτε να δείξετε το μπολ ή να σχεδιάσετε μια διαδρομή στην οθόνη ή απλώς να σπρώξετε απαλά το χέρι του ρομπότ προς τη σωστή κατεύθυνση.
Σε αντίθεση με άλλες μεθόδους τροποποίησης της συμπεριφοράς των ρομπότ, αυτή η τεχνική δεν απαιτεί από τους χρήστες να συλλέγουν νέα δεδομένα και να επανεκπαιδεύουν το μοντέλο μηχανικής μάθησης που ελέγχει το ρομπότ. Αντίθετα, επιτρέπει στο ρομπότ να χρησιμοποιεί ανθρώπινη ανατροφοδότηση σε πραγματικό χρόνο, διαισθητική, για να επιλέξει την ακολουθία ενεργειών που ευθυγραμμίζεται καλύτερα με τις προθέσεις του χρήστη.
Όταν οι ερευνητές δοκίμασαν αυτό το μεθοδολογικό πλαίσιο, το ποσοστό επιτυχίας του ήταν 21% υψηλότερο από μια εναλλακτική μέθοδο που δεν χρησιμοποιούσε ανθρώπινη παρέμβαση.
Στο μέλλον, αυτό το μεθοδολογικό πλαίσιο θα μπορούσε να διευκολύνει τους χρήστες να καθοδηγούν ένα ρομπότ που έχει εκπαιδευτεί στο εργοστάσιο για να εκτελεί διάφορες οικιακές εργασίες, ακόμη και αν το ρομπότ δεν έχει ξαναδεί το περιβάλλον ή τα αντικείμενα σε αυτό το σπίτι.
«Δεν μπορούμε να περιμένουμε από τον μέσο χρήστη να συλλέγει δεδομένα χειροκίνητα και να τελειοποιεί ένα μοντέλο νευρωνικού δικτύου. Θα περιμένει από το ρομπότ να λειτουργεί αμέσως μόλις το βγάλει από τη συσκευασία και, εάν παρουσιαστεί κάποιο σφάλμα, χρειάζεται έναν διαισθητικό μηχανισμό για να το προσαρμόσει. Αυτή είναι η πρόκληση που αντιμετωπίσαμε σε αυτήν την έρευνα», δήλωσε ο Felix Yanwei Wang, μεταπτυχιακός φοιτητής Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών (EECS) στο MIT και κύριος συγγραφέας της μελέτης.
Ελαχιστοποίηση αποκλίσεων
Πρόσφατα, οι ερευνητές χρησιμοποίησαν προ-εκπαιδευμένα μοντέλα γενετικής τεχνητής νοημοσύνης για να μάθουν μια «πολιτική» — ένα σύνολο κανόνων που ακολουθούν τα ρομπότ για να ολοκληρώσουν μια εργασία. Αυτά τα μοντέλα μπορούν να λύσουν πολλές πολύπλοκες εργασίες.
Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο εκτίθεται μόνο σε έγκυρες κινήσεις ρομπότ, επομένως μαθαίνει να δημιουργεί κατάλληλες τροχιές.
Ωστόσο, αυτό δεν σημαίνει ότι κάθε ενέργεια του ρομπότ θα ευθυγραμμίζεται με τις επιθυμίες του χρήστη στην πραγματικότητα. Για παράδειγμα, ένα ρομπότ μπορεί να εκπαιδευτεί να ανακτά κουτιά από ένα ράφι χωρίς να τα αναποδογυρίζει, αλλά μπορεί να μην καταφέρει να φτάσει σε ένα κουτί στη βιβλιοθήκη κάποιου, εάν η διάταξη της βιβλιοθήκης είναι διαφορετική από αυτήν που είδε κατά την εκπαίδευση.
Για να ξεπεράσουν τέτοια σφάλματα, οι μηχανικοί συνήθως συλλέγουν περισσότερα δεδομένα σχετικά με τη νέα εργασία και επανεκπαιδεύουν το μοντέλο, μια δαπανηρή και χρονοβόρα διαδικασία που απαιτεί εξειδίκευση στη μηχανική μάθηση.
Αντ' αυτού, η ερευνητική ομάδα στο MIT θέλει να επιτρέψει στους χρήστες να προσαρμόζουν τη συμπεριφορά του ρομπότ αμέσως μόλις κάνει κάποιο λάθος.
Ωστόσο, εάν οι άνθρωποι παρέμβουν στη διαδικασία λήψης αποφάσεων του ρομπότ, αυτό θα μπορούσε να προκαλέσει ακούσια στο γενετικό μοντέλο να επιλέξει μια μη έγκυρη ενέργεια. Το ρομπότ μπορεί να ανακτήσει το κουτί που θέλει ο χρήστης, αλλά θα μπορούσε να αναποδογυρίσει βιβλία στο ράφι κατά τη διάρκεια της διαδικασίας.
«Θέλουμε οι χρήστες να αλληλεπιδρούν με το ρομπότ χωρίς να κάνουν τέτοια λάθη, επιτυγχάνοντας έτσι μια συμπεριφορά που είναι πιο συνεπής με την πρόθεση του χρήστη, διασφαλίζοντας παράλληλα την εγκυρότητα και τη σκοπιμότητα», δήλωσε ο Felix Yanwei Wang.
Βελτιώστε τις ικανότητες λήψης αποφάσεων
Για να διασφαλιστεί ότι αυτές οι αλληλεπιδράσεις δεν θα προκαλέσουν την εκτέλεση μη έγκυρων ενεργειών από το ρομπότ, η ερευνητική ομάδα χρησιμοποίησε μια ειδική διαδικασία δειγματοληψίας. Αυτή η τεχνική βοηθά το μοντέλο να επιλέξει μια ενέργεια από ένα σύνολο έγκυρων επιλογών που ταιριάζει καλύτερα στον στόχο του χρήστη.
«Αντί να επιβάλλουμε τη θέλησή μας στον χρήστη, βοηθάμε το ρομπότ να κατανοήσει τις προθέσεις του και επιτρέπουμε στη διαδικασία δειγματοληψίας να κυμαίνεται γύρω από τις συμπεριφορές που έχει μάθει», δήλωσε ο Felix Yanwei Wang.
Χάρη σε αυτήν τη μέθοδο, το ερευνητικό τους πλαίσιο ξεπέρασε άλλες μεθόδους σε πειράματα προσομοίωσης, καθώς και σε δοκιμές με πραγματικούς ρομποτικούς βραχίονες σε μια κουζίνα-μοντέλο.
Αν και αυτή η μέθοδος δεν ολοκληρώνει πάντα την εργασία αμέσως, προσφέρει ένα σημαντικό πλεονέκτημα στους χρήστες: μπορούν να επιδιορθώσουν το ρομπότ μόλις εντοπίσουν κάποιο σφάλμα, αντί να περιμένουν το ρομπότ να ολοκληρώσει την εργασία πριν δώσουν νέες οδηγίες.
Επιπλέον, αφού ο χρήστης σπρώξει απαλά το ρομπότ μερικές φορές για να το καθοδηγήσει να σηκώσει το σωστό μπολ, το ρομπότ μπορεί να θυμηθεί αυτήν τη διορθωτική ενέργεια και να την ενσωματώσει στη μελλοντική μαθησιακή του διαδικασία. Ως αποτέλεσμα, την επόμενη μέρα, το ρομπότ μπορεί να σηκώσει το σωστό μπολ χωρίς να χρειάζεται περαιτέρω οδηγίες.
«Αλλά το κλειδί για αυτή τη συνεχή βελτίωση είναι η ύπαρξη ενός μηχανισμού για την αλληλεπίδραση των χρηστών με το ρομπότ, και αυτό ακριβώς έχουμε δείξει σε αυτήν την έρευνα», δήλωσε ο Felix Yanwei Wang.
Στο μέλλον, η ερευνητική ομάδα στοχεύει στην αύξηση της ταχύτητας της διαδικασίας δειγματοληψίας, διατηρώντας παράλληλα ή βελτιώνοντας την αποτελεσματικότητα. Θέλουν επίσης να δοκιμάσουν αυτήν τη μέθοδο σε νέα περιβάλλοντα για να αξιολογήσουν την προσαρμοστικότητα του ρομπότ.
(Πηγή: MIT News)
[διαφήμιση_2]
Πηγή: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Σχόλιο (0)