
Pada bulan April, sebuah bot AI yang menangani dukungan teknis untuk Cursor, sebuah alat yang sedang berkembang untuk para programmer, memberi tahu beberapa pelanggan tentang perubahan kebijakan perusahaan. Secara spesifik, pemberitahuan tersebut menyatakan bahwa mereka tidak lagi diizinkan untuk menggunakan Cursor di lebih dari satu komputer.
Di forum dan media sosial, pelanggan melampiaskan kemarahan mereka. Beberapa bahkan membatalkan akun Cursor mereka. Namun, beberapa orang menjadi lebih marah ketika menyadari apa yang telah terjadi: bot AI telah mengumumkan perubahan kebijakan yang sebenarnya tidak ada.
"Kami tidak memiliki kebijakan seperti itu. Anda tentu saja dapat menggunakan Cursor di beberapa mesin. Sayangnya, ini adalah respons yang tidak akurat dari bot yang dibantu AI," tulis Michael Truell, CEO dan salah satu pendiri perusahaan, dalam sebuah unggahan di Reddit.
Penyebaran berita palsu merajalela dan tidak terkendali.
Lebih dari dua tahun setelah kemunculan ChatGPT, perusahaan teknologi, pekerja kantoran, dan konsumen sehari-hari semakin sering menggunakan bot AI untuk berbagai tugas.
Namun, masih belum ada cara untuk menjamin bahwa sistem-sistem ini menghasilkan informasi yang akurat. Secara paradoks, teknologi terbaru dan paling canggih, yang juga dikenal sebagai sistem "inferensi", dari perusahaan seperti OpenAI, Google, dan DeepSeek, justru menghasilkan lebih banyak kesalahan.
![]() |
Percakapan tidak masuk akal di ChatGPT di mana seorang pengguna bertanya apakah mereka harus memberi makan anjing mereka sereal. Foto: Reddit. |
Berbeda dengan peningkatan kemampuan matematika yang signifikan, kemampuan model bahasa besar (LLM) untuk memahami kebenaran justru menjadi lebih goyah. Hebatnya, bahkan para insinyur sendiri pun benar-benar bingung mengapa hal itu terjadi.
Menurut New York Times , chatbot AI saat ini bergantung pada sistem matematika yang kompleks untuk mempelajari keterampilan dengan menganalisis sejumlah besar data numerik. Namun, mereka tidak dapat memutuskan apa yang benar dan apa yang salah.
Dari situlah muncul fenomena "halusinasi" atau penemuan diri. Bahkan, menurut penelitian, generasi LLM terbaru mengalami "halusinasi" lebih sering daripada beberapa model yang lebih tua.
Secara spesifik, dalam laporan terbarunya, OpenAI menemukan bahwa model o3 bersifat "ilusi" ketika menjawab 33% pertanyaan pada PersonQA, standar internal perusahaan untuk mengukur akurasi pengetahuan model tentang manusia.
Sebagai perbandingan, angka ini dua kali lipat dari tingkat "ilusi" pada model penalaran OpenAI sebelumnya, o1 dan o3-mini, yang masing-masing sebesar 16% dan 14,8%. Sementara itu, model o4-mini bahkan berkinerja lebih buruk pada PersonQA, mengalami "ilusi" selama 48% dari durasi pengujian.
Yang lebih mengkhawatirkan, "bapak ChatGPT" sebenarnya tidak tahu mengapa hal ini terjadi. Secara spesifik, dalam laporan teknisnya tentang o3 dan o4-mini, OpenAI menyatakan bahwa "penelitian lebih lanjut diperlukan untuk memahami mengapa 'halusinasi' memburuk" ketika model penalaran diskalakan.
o3 dan o4-mini berkinerja lebih baik di beberapa area, termasuk pemrograman dan tugas matematika. Namun, karena mereka perlu "membuat lebih banyak pernyataan daripada pernyataan umum," kedua model tersebut menghasilkan "pernyataan yang lebih akurat, tetapi juga pernyataan yang lebih tidak akurat."
"Itu tidak akan pernah hilang."
Alih-alih seperangkat aturan ketat yang ditentukan oleh para insinyur manusia, sistem LLM menggunakan probabilitas matematis untuk memprediksi respons terbaik. Oleh karena itu, sistem ini akan selalu membuat sejumlah kesalahan.
"Terlepas dari upaya terbaik kita, model AI akan selalu rentan terhadap ilusi. Itu tidak akan pernah hilang," kata Amr Awadallah, mantan eksekutif Google.
![]() |
Menurut IBM, halusinasi adalah fenomena di mana model bahasa besar (LLM) – seringkali berupa chatbot atau alat penglihatan komputer – menerima pola data yang tidak ada atau tidak dapat dikenali oleh manusia, sehingga menghasilkan hasil yang tidak bermakna atau tidak akurat. Gambar: iStock. |
Dalam makalah terperinci tentang eksperimen tersebut, OpenAI menyatakan bahwa mereka membutuhkan penelitian lebih lanjut untuk memahami penyebab hasil ini.
Menurut para ahli, karena sistem AI belajar dari jumlah data yang jauh lebih besar daripada yang dapat dipahami manusia, menjadi sangat sulit untuk menentukan mengapa mereka berperilaku seperti itu.
"Ilusi ini pada dasarnya lebih umum terjadi pada model inferensi, meskipun kami secara aktif berupaya mengurangi tingkat kejadian yang terlihat pada o3 dan o4-mini. Kami akan terus mempelajari ilusi ini di semua model untuk meningkatkan akurasi dan keandalan," kata Gaby Raila, juru bicara OpenAI.
Tes dari berbagai perusahaan dan peneliti independen menunjukkan bahwa tingkat halusinasi juga meningkat untuk model inferensi dari perusahaan seperti Google atau DeepSeek.
Sejak akhir tahun 2023, perusahaan Awadallah, Vectara, telah memantau frekuensi penyebaran informasi yang salah oleh chatbot. Perusahaan tersebut memberi tugas sederhana dan mudah diverifikasi kepada sistem-sistem ini: meringkas artikel-artikel tertentu. Namun demikian, chatbot tersebut terus-menerus memalsukan informasi.
Secara spesifik, penelitian awal Vectara memperkirakan bahwa, berdasarkan hipotesis ini, chatbot memalsukan informasi setidaknya dalam 3% kasus, dan terkadang hingga 27%.
Selama satu setengah tahun terakhir, perusahaan seperti OpenAI dan Google telah mengurangi angka tersebut menjadi sekitar 1 atau 2%. Perusahaan lain, seperti startup San Francisco Anthropic, berada di kisaran 4%.
Namun, tingkat halusinasi dalam eksperimen ini terus meningkat untuk sistem penalaran. Sistem penalaran R1 DeepSeek mengalami halusinasi sebesar 14,3%, sedangkan o3 OpenAI meningkat sebesar 6,8%.
Masalah lainnya adalah model inferensi dirancang untuk menghabiskan waktu "berpikir" tentang masalah kompleks sebelum sampai pada jawaban akhir.
![]() |
Apple menyertakan peringatan untuk mencegah AI memalsukan informasi dalam versi beta pertama macOS 15.1. Gambar: Reddit/devanxd2000. |
Namun, kelemahannya adalah ketika mencoba menyelesaikan masalah langkah demi langkah, model AI lebih cenderung mengalami halusinasi di setiap langkahnya. Lebih penting lagi, kesalahan dapat menumpuk seiring model menghabiskan lebih banyak waktu untuk berpikir.
Bot terbaru menampilkan setiap langkah kepada pengguna, yang berarti pengguna juga dapat melihat setiap kesalahan. Para peneliti juga menemukan bahwa dalam banyak kasus, proses berpikir yang ditampilkan oleh chatbot sebenarnya tidak terkait dengan jawaban akhir yang diberikannya.
"Apa yang dikatakan sistem sebagai dasar pemikirannya belum tentu sama dengan apa yang sebenarnya dipikirkannya," kata Aryo Pradipta Gema, seorang peneliti AI di Universitas Edinburgh dan kontributor untuk Anthropic.
Sumber: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










Komentar (0)