gambar bài 19.jpg
Felix Yanwei Wang - seorang mahasiswa pascasarjana di bidang Teknik Elektro dan Ilmu Komputer (EECS) di MIT. Sumber: MIT News

Bayangkan sebuah robot membantu Anda mencuci piring. Anda memintanya untuk mengambil semangkuk sabun dari wastafel, tetapi penjepitnya tidak mencengkeram sabun tersebut tepat di tempat yang dibutuhkan.

Dengan kerangka metodologi baru yang dikembangkan oleh para peneliti di MIT dan NVIDIA, Anda dapat mengontrol perilaku robot dengan gerakan sederhana. Anda dapat menunjuk ke mangkuk atau menggambar jalur di layar, atau cukup mendorong lengan robot dengan lembut ke arah yang benar.

Berbeda dengan metode modifikasi perilaku robot lainnya, teknik ini tidak mengharuskan pengguna untuk mengumpulkan data baru dan melatih ulang model pembelajaran mesin yang mengendalikan robot. Sebaliknya, teknik ini memungkinkan robot untuk menggunakan umpan balik manusia secara intuitif dan real-time untuk memilih urutan tindakan yang paling sesuai dengan maksud pengguna.

Ketika para peneliti menguji kerangka metodologis ini, tingkat keberhasilannya 21% lebih tinggi daripada metode alternatif yang tidak menggunakan intervensi manusia.

Di masa depan, kerangka metodologi ini dapat mempermudah pengguna untuk memandu robot yang telah dilatih di pabrik untuk melakukan berbagai tugas rumah tangga, bahkan jika robot tersebut belum pernah melihat lingkungan atau objek di rumah itu sebelumnya.

“Kita tidak bisa mengharapkan pengguna rata-rata untuk mengumpulkan data secara manual dan menyempurnakan model jaringan saraf. Mereka akan mengharapkan robot untuk langsung berfungsi tanpa perlu pengaturan tambahan, dan jika terjadi kesalahan, mereka membutuhkan mekanisme intuitif untuk menyesuaikannya. Inilah tantangan yang kami atasi dalam penelitian ini,” kata Felix Yanwei Wang, mahasiswa pascasarjana di bidang Teknik Elektro dan Ilmu Komputer (EECS) di MIT dan penulis utama studi tersebut.

Minimalkan penyimpangan

Baru-baru ini, para peneliti telah menggunakan model AI generatif yang telah dilatih sebelumnya untuk mempelajari sebuah "kebijakan"—seperangkat aturan yang diikuti robot untuk menyelesaikan suatu tugas. Model-model ini dapat menyelesaikan banyak tugas kompleks.

Selama pelatihan, model hanya dihadapkan pada pergerakan robot yang valid, sehingga model belajar untuk membuat lintasan yang sesuai.

Namun, ini tidak berarti bahwa setiap tindakan robot akan selaras dengan keinginan pengguna di dunia nyata. Misalnya, robot mungkin dilatih untuk mengambil kotak dari rak tanpa menjatuhkannya, tetapi mungkin gagal mencapai kotak di rak buku seseorang jika tata letak rak buku berbeda dari yang dilihatnya selama pelatihan.

Untuk mengatasi kesalahan tersebut, para insinyur biasanya mengumpulkan lebih banyak data pada tugas baru dan melatih ulang model, sebuah proses yang mahal dan memakan waktu serta membutuhkan keahlian dalam pembelajaran mesin.

Sebaliknya, tim peneliti di MIT ingin memungkinkan pengguna untuk menyesuaikan perilaku robot segera setelah robot tersebut melakukan kesalahan.

Namun, jika manusia ikut campur dalam proses pengambilan keputusan robot, hal itu dapat secara tidak sengaja menyebabkan model generatif memilih tindakan yang tidak valid. Robot mungkin mengambil kotak yang diinginkan pengguna, tetapi bisa saja menjatuhkan buku-buku di rak dalam prosesnya.

"Kami ingin pengguna berinteraksi dengan robot tanpa membuat kesalahan seperti itu, sehingga menghasilkan perilaku yang lebih konsisten dengan niat pengguna, sambil tetap memastikan validitas dan kelayakan," kata Felix Yanwei Wang.

Meningkatkan kemampuan pengambilan keputusan

Untuk memastikan interaksi ini tidak menyebabkan robot melakukan tindakan yang tidak valid, tim peneliti menggunakan proses pengambilan sampel khusus. Teknik ini membantu model memilih tindakan dari serangkaian opsi valid yang paling sesuai dengan tujuan pengguna.

"Alih-alih memaksakan kehendak kami pada pengguna, kami membantu robot memahami niat mereka, dan membiarkan proses pengambilan sampel berfluktuasi di sekitar perilaku yang telah dipelajarinya," kata Felix Yanwei Wang.

Berkat metode ini, kerangka penelitian mereka mengungguli metode lain dalam eksperimen simulasi serta pengujian dengan lengan robot sebenarnya di dapur model.

Meskipun metode ini tidak selalu menyelesaikan tugas dengan segera, metode ini menawarkan keuntungan signifikan bagi pengguna: mereka dapat memperbaiki robot segera setelah mendeteksi kesalahan, alih-alih menunggu robot menyelesaikan tugas sebelum memberikan instruksi baru.

Selain itu, setelah pengguna mendorong robot beberapa kali dengan lembut untuk membimbingnya mengambil mangkuk yang benar, robot dapat mengingat tindakan korektif tersebut dan mengintegrasikannya ke dalam proses pembelajaran di masa mendatang. Akibatnya, keesokan harinya, robot dapat mengambil mangkuk yang benar tanpa memerlukan instruksi lebih lanjut.

"Namun kunci dari peningkatan berkelanjutan ini adalah memiliki mekanisme bagi pengguna untuk berinteraksi dengan robot, dan itulah yang telah kami demonstrasikan dalam penelitian ini," kata Felix Yanwei Wang.

Ke depannya, tim peneliti bertujuan untuk meningkatkan kecepatan proses pengambilan sampel sambil mempertahankan atau meningkatkan efisiensi. Mereka juga ingin menguji metode ini di lingkungan baru untuk menilai kemampuan adaptasi robot.

(Sumber: Berita MIT)