Vietnam.vn - Nền tảng quảng bá Việt Nam

Chatbot AI Mulai 'Gila'

Gelombang baru sistem "inferensi" dari perusahaan seperti OpenAI membuat misinformasi semakin sering terjadi. Bahayanya adalah perusahaan-perusahaan tersebut tidak tahu penyebabnya.

ZNewsZNews08/05/2025

Pada bulan April, bot AI yang menangani dukungan teknis untuk Cursor, alat baru bagi programmer, memberi tahu beberapa pelanggan tentang perubahan kebijakan perusahaan, khususnya mengatakan bahwa mereka tidak lagi diizinkan menggunakan Cursor di lebih dari satu komputer.

Pelanggan meluapkan kemarahan mereka di forum dan media sosial. Beberapa bahkan membatalkan akun Cursor mereka. Namun, beberapa bahkan lebih marah ketika menyadari apa yang terjadi: bot AI tersebut telah melaporkan perubahan kebijakan yang tidak ada.

"Kami tidak punya kebijakan seperti itu. Anda tentu saja bisa menggunakan Cursor di beberapa mesin. Sayangnya, ini adalah respons yang salah dari bot bertenaga AI," tulis Michael Truell, CEO dan salah satu pendiri perusahaan, dalam sebuah unggahan di Reddit.

Informasi palsu tidak terkendali.

Lebih dari dua tahun setelah peluncuran ChatGPT, perusahaan teknologi, pekerja kantoran, dan konsumen sehari-hari menggunakan bot AI untuk berbagai tugas dengan frekuensi yang semakin meningkat.

Namun, tidak ada cara untuk memastikan bahwa sistem-sistem ini menghasilkan informasi yang akurat. Paradoksnya, teknologi-teknologi baru yang paling canggih, yang dikenal sebagai sistem "inferensi" dari perusahaan-perusahaan seperti OpenAI, Google, dan DeepSeek, justru menghasilkan lebih banyak kesalahan.

AI anh 1

Percakapan ChatGPT yang tidak masuk akal di mana pengguna bertanya apakah anjing boleh makan sereal. Foto: Reddit.

Meskipun keterampilan matematika telah meningkat drastis, kemampuan model bahasa besar (LLM) untuk menangkap kebenaran menjadi semakin lemah. Anehnya, bahkan para insinyur sendiri sama sekali tidak mengerti alasannya.

Menurut New York Times , chatbot AI masa kini mengandalkan sistem matematika yang kompleks untuk mempelajari keterampilan dengan menganalisis data digital dalam jumlah besar. Namun, mereka tidak dapat memutuskan mana yang benar dan mana yang salah.

Dari situlah, muncullah kondisi "halusinasi" atau rekayasa informasi sendiri. Bahkan, menurut penelitian, generasi terbaru LLM bahkan lebih "berhalusinasi" daripada beberapa model lama.

Secara khusus, dalam laporan terbaru, OpenAI menemukan bahwa model o3 "berhalusinasi" saat menjawab 33% pertanyaan di PersonQA, standar internal perusahaan untuk mengukur keakuratan pengetahuan model tentang manusia.

Sebagai perbandingan, angka ini dua kali lipat lebih tinggi daripada tingkat "halusinasi" model penalaran OpenAI sebelumnya, o1 dan o3-mini, yang masing-masing mencapai 16% dan 14,8%. Sementara itu, model o4-mini bahkan berkinerja lebih buruk pada PersonQA, dengan tingkat "halusinasi" sebesar 48%.

Yang lebih mengkhawatirkan, "bapak ChatGPT" tidak benar-benar tahu mengapa hal ini terjadi. Secara spesifik, dalam laporan teknis tentang o3 dan o4-mini, OpenAI menulis bahwa "penelitian lebih lanjut diperlukan untuk memahami mengapa "ilusi" ini semakin memburuk" seiring dengan peningkatan skala model penalaran.

o3 dan o4-mini berkinerja lebih baik di beberapa area, termasuk tugas-tugas pemrograman dan matematika. Namun, karena mereka perlu "membuat lebih banyak pernyataan daripada menggeneralisasi", kedua model tersebut mengalami kesulitan menghasilkan "pernyataan yang lebih benar, tetapi juga lebih banyak yang salah."

"Itu tidak akan pernah hilang"

Alih-alih serangkaian aturan ketat yang ditentukan oleh insinyur manusia, sistem LLM menggunakan probabilitas matematis untuk menebak respons terbaik. Oleh karena itu, sistem ini selalu menghasilkan sejumlah kesalahan.

"Meskipun kita sudah berusaha sebaik mungkin, model AI akan selalu delusif. Hal itu tidak akan pernah hilang," kata Amr Awadallah, mantan eksekutif Google.

AI anh 2

Menurut IBM, halusinasi adalah fenomena ketika model bahasa besar (LLM)—biasanya chatbot atau perangkat visi komputer—menerima pola data yang tidak ada atau tidak dapat dikenali manusia, sehingga menghasilkan hasil yang tidak bermakna atau menyesatkan. Foto: iStock.

Dalam makalah terperinci tentang percobaan tersebut, OpenAI mengatakan perlu penelitian lebih lanjut untuk memahami alasan di balik hasil ini.

Karena sistem AI belajar dari jumlah data yang jauh lebih besar daripada yang dapat dipahami manusia, mungkin sulit untuk menentukan mengapa mereka berperilaku seperti itu, kata para ahli.

"Ilusi pada dasarnya lebih umum dalam model inferensi, meskipun kami secara aktif berupaya mengurangi kejadian yang terlihat pada o3 dan o4-mini. Kami akan terus berupaya memperbaiki ilusi di semua model untuk meningkatkan akurasi dan keandalan," ujar Gaby Raila, juru bicara OpenAI.

Pengujian dari beberapa perusahaan dan peneliti independen menunjukkan bahwa tingkat halusinasi juga meningkat untuk model inferensi dari perusahaan seperti Google atau DeepSeek.

Sejak akhir 2023, perusahaan Awadallah, Vectara, telah melacak seberapa sering chatbot salah mengartikan informasi. Perusahaan meminta sistem untuk melakukan tugas sederhana yang mudah diverifikasi, yaitu meringkas artikel berita tertentu. Meskipun demikian, chatbot tetap saja memalsukan informasi.

Secara khusus, penelitian awal Vectara memperkirakan bahwa dalam skenario ini, chatbot memalsukan informasi setidaknya 3% dari waktu, dan terkadang sebanyak 27%.

Selama satu setengah tahun terakhir, perusahaan seperti OpenAI dan Google telah menurunkan angka tersebut menjadi sekitar 1 atau 2%. Perusahaan lain, seperti startup asal San Francisco, Anthropic, masih berada di kisaran 4%.

Namun, tingkat halusinasi dalam pengujian ini terus meningkat untuk sistem inferensi. Frekuensi halusinasi meningkat sebesar 14,3% untuk sistem inferensi R1 DeepSeek, sementara o3 OpenAI meningkat sebesar 6,8%.

Masalah lainnya adalah bahwa model inferensi dirancang untuk menghabiskan waktu "berpikir" tentang masalah yang kompleks, sebelum menghasilkan jawaban akhir.

AI anh 3

Perintah untuk mencegah AI memalsukan informasi disisipkan oleh Apple dalam versi uji coba pertama macOS 15.1. Foto: Reddit/devanxd2000.

Namun, sisi negatifnya adalah ketika model AI mencoba memecahkan masalah selangkah demi selangkah, ia menjadi lebih rentan terhadap halusinasi di setiap langkah. Lebih penting lagi, kesalahan dapat terakumulasi seiring model menghabiskan lebih banyak waktu untuk berpikir.

Bot terbaru menunjukkan setiap langkah kepada pengguna, yang berarti pengguna juga dapat melihat setiap kesalahan. Para peneliti juga menemukan bahwa dalam banyak kasus, proses berpikir yang ditunjukkan oleh chatbot sebenarnya tidak berkaitan dengan jawaban akhir yang diberikannya.

“Apa yang disimpulkan oleh sistem belum tentu merupakan apa yang sebenarnya dipikirkan,” kata Aryo Pradipta Gema, seorang peneliti AI di Universitas Edinburgh dan rekan di Anthropic.

Sumber: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html


Komentar (0)

Silakan tinggalkan komentar untuk berbagi perasaan Anda!

Dalam kategori yang sama

Seniman Rakyat Xuan Bac menjadi "pembawa acara" bagi 80 pasangan yang menikah di jalan setapak Danau Hoan Kiem.
Katedral Notre Dame di Kota Ho Chi Minh diterangi dengan terang benderang untuk menyambut Natal 2025
Gadis-gadis Hanoi "berdandan" cantik untuk menyambut Natal
Cerah setelah badai dan banjir, desa krisan Tet di Gia Lai berharap tidak akan ada pemadaman listrik untuk menyelamatkan tanaman.

Dari penulis yang sama

Warisan

Angka

Bisnis

Kedai kopi Hanoi bikin heboh dengan suasana Natal ala Eropa

Peristiwa terkini

Sistem Politik

Lokal

Produk

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC