Neue Forschungsergebnisse ermöglichen es Menschen, die Aktionen eines Roboters in Echtzeit anzupassen, ähnlich wie sie einem anderen Menschen Feedback geben würden.
Stellen Sie sich vor, ein Roboter hilft Ihnen beim Abwaschen. Sie haben ihn gebissen, eine Schüssel mit Seife aus der Spüle zu nehmen, aber sein Greifer greift nicht genau dort, wo er hin soll.
Mit einem neuen Framework, das von Forschern am MIT und NVIDIA entwickelt wurde, lässt sich das Verhalten eines Roboters mit einfachen Gesten steuern. Man kann auf eine Schüssel zeigen, einen Pfad auf dem Bildschirm zeichnen oder den Arm des Roboters einfach in die richtige Richtung lenken.
Im Gegensatz zu anderen Ansätzen zur Verhaltensänderung von Robotern erfordert diese Technik keine Datenerfassung und kein erneutes Trainieren des maschinellen Lernmodells, das den Roboter steuert. Stattdessen kann der Roboter mithilfe von visuellem Feedback in Echtzeit die Aktionssequenz auswählen, die am besten zur Benutzerabsicht passt.
Als Forscher dieses Framework testeten, war seine Erfolgsquote um 21 % höher als bei einem alternativen Ansatz ohne menschliches Eingreifen.
Dieses Framework könnte es einem Benutzer in Zukunft leicht machen, einem werkseitig trainierten Roboter Anweisungen zur Ausführung verschiedener Haushaltsaufgaben zu geben, selbst wenn der Roboter die Umgebung oder die Objekte in diesem Haus noch nie zuvor gesehen hat.
„Wir können von normalen Nutzern nicht erwarten, dass sie Daten sammeln und ein neuronales Netzwerkmodell optimieren. Sie erwarten, dass der Roboter sofort funktioniert, und wenn etwas schiefgeht, brauchen sie einen intuitiven Mechanismus zur Korrektur. Diese Herausforderung haben wir uns in dieser Arbeit gestellt“, sagt Felix Yanwei Wang, Doktorand in der Abteilung für Elektrotechnik und Informatik (EECS) am MIT und Hauptautor der Studie.
Minimieren Sie die Abweichung
Forscher haben kürzlich vortrainierte generative KI-Modelle eingesetzt, um eine „Richtlinie“ zu erlernen – eine Reihe von Regeln, die ein Roboter zur Erledigung einer Aufgabe befolgt. Diese Modelle können viele komplexe Aufgaben lösen.
Während des Trainings wird das Modell nur gültigen Roboterbewegungen ausgesetzt, sodass es lernt, geeignete Bewegungstrajektorien zu generieren.
Dies bedeutet jedoch nicht, dass jede Aktion eines Roboters den tatsächlichen Erwartungen des Benutzers entspricht. Beispielsweise kann ein Roboter darauf trainiert werden, Kisten aus einem Regal aufzuheben, ohne sie umzustoßen, aber möglicherweise nicht an eine Kiste im Bücherregal gelangen, wenn die Anordnung des Bücherregals anders ist als beim Training.
Um solche zusätzlichen Fehler zu beheben, sammeln Ingenieure häufig Daten zu neuen Aufgaben und trainieren das Modell neu. Dies ist ein kostspieliger und zeitaufwändiger Prozess, der Fachkenntnisse im Bereich maschinelles Lernen erfordert.
Stattdessen möchte das MIT-Team es den Benutzern ermöglichen, das Verhalten des Roboters anzupassen, sobald dieser einen Fehler macht.
Wenn jedoch ein Mensch in den Entscheidungsprozess des Roboters eingreift, kann dies dazu führen, dass das generative Modell versehentlich eine ungültige Aktion auswählt. Der Roboter holt möglicherweise die vom Menschen gewünschte Kiste, stößt dabei aber möglicherweise Bücher im Regal um.
„Wir möchten, dass die Benutzer mit dem Roboter interagieren, ohne solche Fehler zu machen, und so ein Verhalten erreichen, das den Absichten des Benutzers besser entspricht, während gleichzeitig Gültigkeit und Durchführbarkeit gewährleistet bleiben“, sagte Felix Yanwei Wang.
Verbessern Sie die Entscheidungsfähigkeit
Um sicherzustellen, dass diese Interaktionen keine ungültigen Aktionen des Roboters auslösen, verwendet das Team ein spezielles Sampling-Verfahren. Mithilfe dieser Technik kann das Modell aus einer Reihe gültiger Optionen die Aktion auswählen, die den Zielen des Benutzers am besten entspricht.
„Anstatt dem Benutzer seine Absichten aufzuzwingen, helfen wir dem Roboter, seine Absichten zu verstehen, während wir den Sampling-Prozess um die erlernten Verhaltensweisen herumschwanken lassen“, sagte Felix Yanwei Wang.
Dank dieses Ansatzes übertraf ihr Forschungsrahmen andere Methoden in Simulationsexperimenten sowie bei Tests mit einem echten Roboterarm in einer Modellküche.
Obwohl diese Methode die Aufgabe nicht immer sofort erledigt hat, hat sie einen großen Vorteil für den Benutzer: Er kann den Roboter korrigieren, sobald er einen Fehler erkennt, anstatt zu warten, bis der Roboter die Aufgabe erledigt hat, und ihm dann neue Anweisungen zu geben.
Darüber hinaus kann sich der Roboter diese Korrektur merken und in zukünftigen Lernvorgängen einbauen, nachdem der Benutzer den Roboter einige Male sanft angestoßen hat, um ihn zur richtigen Schüssel zu führen. So kann der Roboter am nächsten Tag die richtige Schüssel aufnehmen, ohne erneut angeleitet werden zu müssen.
„Der Schlüssel zu dieser kontinuierlichen Verbesserung besteht jedoch darin, einen Mechanismus zu haben, der es den Benutzern ermöglicht, mit dem Roboter zu interagieren, und genau das haben wir in dieser Studie gezeigt“, sagte Felix Yanwei Wang.
Zukünftig möchte das Team den Probenahmeprozess beschleunigen und gleichzeitig die Leistung beibehalten oder verbessern. Außerdem möchte ich die Methode in Umgebungen testen, um die Anpassungsfähigkeit des neuen Roboters zu beurteilen.
(Quelle: MIT News)
[Anzeige_2]
Quelle: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Kommentar (0)