Peringatan tentang ChatGPT yang 'bersifat halusinogenik'

Kedua model ChatGPT yang baru diluncurkan memiliki frekuensi informasi palsu yang lebih tinggi daripada generasi sebelumnya. Foto: Fireflies .

Hanya dua hari setelah mengumumkan GPT-4.1, OpenAI secara resmi meluncurkan bukan satu, tetapi dua model baru, yang diberi nama o3 dan o4-mini. Kedua model ini menunjukkan kemampuan penalaran yang unggul dengan banyak peningkatan yang signifikan.

Namun, menurut TechCrunch , kedua model baru ini masih mengalami "halusinasi" atau kemampuan menciptakan sesuatu sendiri. Bahkan, mereka menunjukkan lebih banyak halusinasi daripada beberapa model OpenAI yang lebih lama.

Menurut IBM, halusinasi adalah fenomena di mana model bahasa besar (LLM) – seringkali berupa chatbot atau alat penglihatan komputer – menerima pola data yang tidak ada atau tidak dapat dikenali oleh manusia, sehingga menghasilkan hasil yang tidak bermakna atau tidak akurat.

Dengan kata lain, pengguna sering mengharapkan AI menghasilkan hasil yang akurat berdasarkan data yang telah dilatih. Namun, dalam beberapa kasus, hasil AI tidak didasarkan pada data yang akurat, sehingga menghasilkan respons yang "salah".

Dalam laporan terbarunya, OpenAI menemukan bahwa o3 bersifat "ilusi" ketika menjawab 33% pertanyaan pada PersonQA, standar internal perusahaan untuk mengukur akurasi pengetahuan model tentang manusia.

Sebagai perbandingan, angka ini dua kali lipat dari tingkat "ilusi" pada model penalaran OpenAI sebelumnya, o1 dan o3-mini, yang masing-masing sebesar 16% dan 14,8%. Sementara itu, model O4-mini bahkan berkinerja lebih buruk pada PersonQA, mengalami "ilusi" selama 48% dari durasi pengujian.

Yang lebih mengkhawatirkan, "bapak ChatGPT" sebenarnya tidak tahu mengapa hal ini terjadi. Secara spesifik, dalam laporan teknisnya tentang o3 dan o4-mini, OpenAI menyatakan bahwa "penelitian lebih lanjut diperlukan untuk memahami mengapa 'halusinasi' memburuk" ketika model penalaran diskalakan.

O3 dan o4-mini berkinerja lebih baik di beberapa area, termasuk pemrograman dan tugas matematika. Namun, karena mereka perlu "membuat lebih banyak pernyataan daripada pernyataan umum," kedua model tersebut menghasilkan "pernyataan yang lebih akurat, tetapi juga pernyataan yang lebih tidak akurat."

Sumber: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html