Bot sembang AI semakin "gila".

Gelombang baharu sistem "inferens" daripada syarikat seperti OpenAI menjadikan maklumat salah lebih kerap. Perkara yang berbahaya ialah syarikat-syarikat ini juga tidak tahu sebabnya.

ZNews•08/05/2025

Pada bulan April, bot AI yang mengendalikan sokongan teknikal untuk Cursor, alat yang sedang berkembang pesat untuk pengaturcara, telah memaklumkan beberapa pelanggan tentang perubahan dalam dasar syarikat. Secara khususnya, pemberitahuan tersebut menyatakan bahawa mereka tidak lagi dibenarkan menggunakan Cursor pada lebih daripada satu komputer.

Di forum dan media sosial, pelanggan menyiarkan mesej untuk meluahkan kemarahan mereka. Ada juga yang membatalkan akaun Cursor mereka. Walau bagaimanapun, ada yang lebih berang apabila mereka menyedari apa yang telah berlaku: bot AI telah mengumumkan perubahan dasar yang tidak wujud.

"Kami tidak mempunyai dasar sedemikian. Sudah tentu, anda boleh menggunakan Kursor pada berbilang mesin. Malangnya, ini adalah respons yang tidak tepat daripada bot yang dibantu AI," tulis Michael Truell, Ketua Pegawai Eksekutif dan pengasas bersama syarikat itu, dalam catatan Reddit.

Penyebaran berita palsu berleluasa dan tidak terkawal.

Lebih dua tahun selepas kemunculan ChatGPT, syarikat teknologi, pekerja pejabat dan pengguna harian semuanya menggunakan bot AI untuk pelbagai tugas dengan kekerapan yang semakin meningkat.

Walau bagaimanapun, masih tiada cara untuk menjamin bahawa sistem ini menghasilkan maklumat yang tepat. Secara paradoksnya, teknologi terbaru dan paling berkuasa, juga dikenali sebagai sistem "inferens", daripada syarikat seperti OpenAI, Google dan DeepSeek, sebenarnya menghasilkan lebih banyak ralat.

Perbualan yang tidak masuk akal di ChatGPT di mana seorang pengguna bertanya sama ada mereka harus memberi makan bijirin anjing mereka. Foto: Reddit.

Berbeza dengan kemahiran matematik yang dipertingkatkan dengan ketara, keupayaan model bahasa besar (LLM) untuk memahami kebenaran menjadi lebih goyah. Hebatnya, jurutera sendiri pun keliru sepenuhnya mengapa.

Menurut New York Times , chatbot AI hari ini bergantung pada sistem matematik yang kompleks untuk mempelajari kemahiran dengan menganalisis sejumlah besar data berangka. Walau bagaimanapun, mereka tidak dapat memutuskan apa yang betul dan apa yang salah.

Dari situ, fenomena "halusinasi" atau daya cipta kendiri muncul. Malah, menurut kajian, generasi LLM terbaharu mengalami "halusinasi" lebih kerap berbanding beberapa model lama.

Secara khususnya, dalam laporan terbarunya, OpenAI mendapati bahawa model o3 adalah "khayalan" apabila menjawab 33% soalan di PersonQA, piawaian dalaman syarikat untuk mengukur ketepatan pengetahuan model tentang manusia.

Sebagai perbandingan, angka ini adalah dua kali ganda kadar "ilusi" model penaakulan OpenAI sebelumnya, o1 dan o3-mini, iaitu masing-masing 16% dan 14.8%. Sementara itu, model o4-mini bernasib lebih teruk pada PersonQA, mengalami "ilusi" selama 48% daripada tempoh ujian.

Lebih membimbangkan, "bapa ChatGPT" sebenarnya tidak tahu mengapa perkara ini berlaku. Secara khususnya, dalam laporan teknikalnya mengenai o3 dan o4-mini, OpenAI menyatakan bahawa "kajian lanjut diperlukan untuk memahami mengapa 'halusinasi' menjadi lebih teruk" apabila menskalakan model penaakulan.

o3 dan o4-mini menunjukkan prestasi yang lebih baik dalam beberapa bidang, termasuk tugasan pengaturcaraan dan matematik. Walau bagaimanapun, kerana ia perlu "membuat lebih banyak pernyataan daripada pernyataan umum," kedua-dua model telah menghasilkan "pernyataan yang lebih tepat, tetapi juga pernyataan yang lebih tidak tepat."

"Itu tidak akan pernah hilang."

Daripada satu set peraturan ketat yang ditakrifkan oleh jurutera manusia, sistem LLM menggunakan kebarangkalian matematik untuk meramalkan tindak balas terbaik. Oleh itu, ia akan sentiasa membuat sejumlah ralat tertentu.

"Walaupun usaha terbaik kami, model AI akan sentiasa tertakluk kepada ilusi. Itu tidak akan pernah hilang," kata Amr Awadallah, bekas eksekutif Google.

Menurut IBM, halusinasi adalah fenomena di mana model bahasa besar (LLM) – selalunya chatbot atau alat penglihatan komputer – menerima corak data yang tidak wujud atau tidak dapat dikenali oleh manusia, sehingga menghasilkan hasil yang tidak bermakna atau tidak tepat. Imej: iStock.

Dalam kertas kerja terperinci tentang eksperimen tersebut, OpenAI menyatakan bahawa ia memerlukan kajian lanjut untuk memahami punca keputusan ini.

Menurut pakar, oleh kerana sistem AI belajar daripada jumlah data yang jauh lebih besar daripada yang dapat difahami oleh manusia, menjadi sangat sukar untuk menentukan mengapa ia bertindak sedemikian.

"Ilusi ini secara semula jadi lebih biasa dalam model inferens, walaupun kami sedang giat berusaha untuk mengurangkan kadar yang dilihat dalam 03 dan 04-mini. Kami akan terus mengkaji ilusi merentasi semua model untuk meningkatkan ketepatan dan kebolehpercayaan," kata Gaby Raila, jurucakap OpenAI.

Ujian daripada pelbagai syarikat dan penyelidik bebas menunjukkan bahawa kadar halusinasi juga meningkat untuk model inferens daripada syarikat seperti Google atau DeepSeek.

Sejak akhir tahun 2023, syarikat Awadallah, Vectara, telah memantau kekerapan bot sembang menyebarkan maklumat salah. Syarikat itu menugaskan sistem ini dengan tugas yang mudah dan boleh disahkan: meringkaskan artikel tertentu. Walaupun begitu, bot sembang tersebut terus-menerus mereka-reka maklumat.

Secara khusus, kajian awal Vectara menganggarkan bahawa, di bawah hipotesis ini, chatbot mereka-reka maklumat dalam sekurang-kurangnya 3% kes, dan kadangkala sehingga 27%.

Sepanjang satu setengah tahun yang lalu, syarikat seperti OpenAI dan Google telah mengurangkan angka tersebut kepada sekitar 1 atau 2%. Syarikat lain, seperti syarikat baharu San Francisco, Anthrop, berada sekitar 4%.

Walau bagaimanapun, kadar halusinasi dalam eksperimen ini terus meningkat untuk sistem penaakulan. Sistem penaakulan R1 DeepSeek mengalami halusinasi sebanyak 14.3%, manakala 03 OpenAI meningkat sebanyak 6.8%.

Satu lagi masalah ialah model inferens direka bentuk untuk meluangkan masa "memikirkan" masalah yang kompleks sebelum sampai pada jawapan muktamad.

Apple telah memasukkan gesaan untuk menghalang AI daripada mereka-reka maklumat dalam versi beta pertama macOS 15.1. Imej: Reddit/devanxd2000.

Walau bagaimanapun, kelemahannya ialah apabila cuba menyelesaikan masalah langkah demi langkah, model AI lebih cenderung untuk mengalami halusinasi pada setiap langkah. Lebih penting lagi, ralat boleh terkumpul apabila model menghabiskan lebih banyak masa berfikir.

Bot terkini memaparkan setiap langkah kepada pengguna, bermakna pengguna juga boleh melihat setiap ralat. Penyelidik juga mendapati bahawa dalam banyak kes, proses pemikiran yang dipaparkan oleh chatbot sebenarnya tidak berkaitan dengan jawapan akhir yang diberikannya.

"Apa yang dikatakan oleh sistem sebagai hujahnya tidak semestinya apa yang sebenarnya difikirkannya," kata Aryo Pradipta Gema, seorang penyelidik AI di Universiti Edinburgh dan penyumbang kepada Anthropic.

Sumber: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html