Amaran tentang ChatGPT 'halusinogenik'

Dua model ChatGPT yang baru dilancarkan mempunyai kekerapan maklumat palsu yang lebih tinggi berbanding generasi sebelumnya. Foto: Fireflies .

Hanya dua hari selepas mengumumkan GPT-4.1, OpenAI secara rasmi melancarkan bukan satu, tetapi dua model baharu, dinamakan o3 dan o4-mini. Kedua-dua model menunjukkan keupayaan penaakulan yang unggul dengan banyak penambahbaikan yang hebat.

Walau bagaimanapun, menurut TechCrunch , kedua-dua model baharu ini masih mengalami "halusinasi" atau daya cipta kendiri. Malah, ia menunjukkan lebih banyak halusinasi berbanding beberapa model OpenAI yang lebih lama.

Menurut IBM, halusinasi adalah fenomena di mana model bahasa besar (LLM) – selalunya chatbot atau alat penglihatan komputer – menerima corak data yang tidak wujud atau tidak dapat dikenali oleh manusia, sehingga menghasilkan hasil yang tidak bermakna atau tidak tepat.

Dalam erti kata lain, pengguna sering menjangkakan AI menghasilkan keputusan yang tepat berdasarkan data yang terlatih. Walau bagaimanapun, dalam beberapa kes, keputusan AI tidak berdasarkan data yang tepat, lalu mewujudkan respons "palsu".

Dalam laporan terbarunya, OpenAI mendapati bahawa o3 adalah "khayalan" apabila menjawab 33% soalan di PersonQA, piawaian dalaman syarikat untuk mengukur ketepatan pengetahuan model tentang manusia.

Sebagai perbandingan, angka ini adalah dua kali ganda kadar "ilusi" model penaakulan OpenAI sebelumnya, o1 dan o3-mini, iaitu masing-masing 16% dan 14.8%. Sementara itu, model O4-mini bernasib lebih teruk pada PersonQA, mengalami "ilusi" selama 48% daripada tempoh ujian.

Lebih membimbangkan, "bapa ChatGPT" sebenarnya tidak tahu mengapa perkara ini berlaku. Secara khususnya, dalam laporan teknikalnya mengenai o3 dan o4-mini, OpenAI menyatakan bahawa "kajian lanjut diperlukan untuk memahami mengapa 'halusinasi' menjadi lebih teruk" apabila menskalakan model penaakulan.

O3 dan o4-mini menunjukkan prestasi yang lebih baik dalam beberapa bidang, termasuk tugasan pengaturcaraan dan matematik. Walau bagaimanapun, kerana ia perlu "membuat lebih banyak pernyataan daripada pernyataan umum," kedua-dua model telah menghasilkan "pernyataan yang lebih tepat, tetapi juga pernyataan yang lebih tidak tepat."

Sumber: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html