image bài 19.jpg
Felix Yanwei Wang – Doktorand im Bereich Elektrotechnik und Informatik (EECS) am MIT. Quelle: MIT News

Stellen Sie sich einen Roboter vor, der Ihnen beim Abwasch hilft. Sie bitten ihn, eine Schüssel mit Spülmittel aus dem Spülbecken zu holen, aber seine Greifer fassen sie nicht genau dort, wo sie benötigt wird.

Mithilfe einer neuen Methodik, die von Forschern des MIT und von NVIDIA entwickelt wurde, lässt sich das Verhalten des Roboters mit einfachen Gesten steuern. Man kann auf die Schüssel zeigen, einen Pfad auf dem Bildschirm zeichnen oder den Roboterarm einfach sanft in die gewünschte Richtung schieben.

Im Gegensatz zu anderen Methoden zur Verhaltensmodifikation von Robotern erfordert diese Technik nicht, dass Benutzer neue Daten erfassen und das maschinelle Lernmodell, das den Roboter steuert, neu trainieren. Stattdessen ermöglicht sie dem Roboter, intuitives menschliches Feedback in Echtzeit zu nutzen, um die Aktionsabfolge auszuwählen, die den Absichten des Benutzers am besten entspricht.

Als Forscher diesen methodischen Rahmen testeten, lag seine Erfolgsquote um 21 % höher als bei einer alternativen Methode, die keine menschliche Intervention vorsah.

Zukünftig könnte dieser methodische Rahmen es den Nutzern erleichtern, einen im Werk trainierten Roboter bei der Ausführung verschiedener Haushaltsaufgaben zu unterstützen, selbst wenn der Roboter die Umgebung oder die Objekte in diesem Haus noch nie zuvor gesehen hat.

„Wir können nicht erwarten, dass der durchschnittliche Nutzer Daten manuell erfasst und ein neuronales Netzwerkmodell feinabstimmt. Er erwartet, dass der Roboter sofort einsatzbereit ist, und benötigt im Fehlerfall einen intuitiven Mechanismus zur Fehlerbehebung. Genau dieser Herausforderung haben wir uns in unserer Studie gewidmet“, so Felix Yanwei Wang, Doktorand der Elektrotechnik und Informatik am MIT und Hauptautor der Studie.

Abweichungen minimieren

Forscher haben in jüngster Zeit vortrainierte generative KI-Modelle eingesetzt, um eine „Richtlinie“ zu erlernen – eine Reihe von Regeln, die Roboter befolgen, um eine Aufgabe zu erledigen. Diese Modelle können viele komplexe Aufgaben lösen.

Während des Trainings wird das Modell nur gültigen Roboterbewegungen ausgesetzt, sodass es lernt, geeignete Bewegungsabläufe zu erstellen.

Dies bedeutet jedoch nicht, dass jede Aktion des Roboters in der Realität den Wünschen des Benutzers entspricht. Beispielsweise könnte ein Roboter darauf trainiert sein, Kisten aus einem Regal zu holen, ohne sie umzustoßen, aber er könnte eine Kiste in einem Bücherregal nicht erreichen, wenn die Anordnung des Bücherregals anders ist als während des Trainings.

Um solche Fehler zu beheben, sammeln Ingenieure typischerweise mehr Daten über die neue Aufgabe und trainieren das Modell neu. Dies ist ein kostspieliger und zeitaufwändiger Prozess, der Fachkenntnisse im Bereich maschinelles Lernen erfordert.

Das Forschungsteam am MIT möchte den Nutzern stattdessen ermöglichen, das Verhalten des Roboters anzupassen, sobald dieser einen Fehler macht.

Wenn Menschen jedoch in den Entscheidungsprozess des Roboters eingreifen, könnte dies unbeabsichtigt dazu führen, dass das generative Modell eine ungültige Aktion auswählt. Der Roboter könnte zwar die gewünschte Kiste holen, dabei aber versehentlich Bücher im Regal umstoßen.

„Wir wollen, dass die Benutzer mit dem Roboter interagieren, ohne solche Fehler zu machen, und dadurch ein Verhalten erreichen, das besser mit der Absicht des Benutzers übereinstimmt, während gleichzeitig Gültigkeit und Machbarkeit gewährleistet werden“, sagte Felix Yanwei Wang.

Verbesserung der Entscheidungsfähigkeit

Um zu verhindern, dass diese Interaktionen den Roboter zu ungültigen Aktionen veranlassen, nutzte das Forschungsteam ein spezielles Stichprobenverfahren. Diese Technik hilft dem Modell, aus einer Menge gültiger Optionen diejenige Aktion auszuwählen, die am besten zum Ziel des Nutzers passt.

„Anstatt dem Benutzer unseren Willen aufzuzwingen, helfen wir dem Roboter, seine Absichten zu verstehen, und ermöglichen es dem Sampling-Prozess, um die erlernten Verhaltensweisen herum zu schwanken“, sagte Felix Yanwei Wang.

Dank dieser Methode übertraf ihr Forschungsansatz andere Methoden sowohl in Simulationsexperimenten als auch bei Tests mit realen Roboterarmen in einer Modellküche.

Auch wenn diese Methode die Aufgabe nicht immer sofort erledigt, bietet sie den Benutzern einen entscheidenden Vorteil: Sie können den Roboter reparieren, sobald sie einen Fehler feststellen, anstatt warten zu müssen, bis der Roboter die Aufgabe abgeschlossen hat, bevor sie neue Anweisungen geben können.

Darüber hinaus kann der Roboter, nachdem der Benutzer ihn einige Male sanft angeschoben hat, um ihn zum richtigen Teller zu führen, diese Korrekturaktion speichern und in seinen zukünftigen Lernprozess integrieren. Dadurch kann der Roboter am nächsten Tag den richtigen Teller ohne weitere Anweisungen aufnehmen.

„Der Schlüssel zu dieser kontinuierlichen Verbesserung liegt jedoch darin, einen Mechanismus zu haben, der es den Benutzern ermöglicht, mit dem Roboter zu interagieren, und genau das haben wir in dieser Studie demonstriert“, sagte Felix Yanwei Wang.

Zukünftig möchte das Forschungsteam die Geschwindigkeit des Probenahmeprozesses erhöhen und gleichzeitig die Effizienz beibehalten oder verbessern. Außerdem soll die Methode in neuen Umgebungen getestet werden, um die Anpassungsfähigkeit des Roboters zu beurteilen.

(Quelle: MIT News)