
Semakin kuat model, semakin lemah "pemikiran"?
Dalam laporan yang baru diterbitkan, para penyelidik Apple menilai prestasi Model Penaakulan Besar (LRM) dalam mengendalikan masalah logik yang semakin sukar, seperti masalah Menara Hanoi atau Penyeberangan Sungai .
Hasilnya mengejutkan: apabila berhadapan dengan masalah yang sangat kompleks, ketepatan model AI canggih bukan sahaja merosot, malah "runtuh sepenuhnya".
Apa yang lebih membimbangkan ialah sebelum prestasi menjunam, model-model tersebut mula... mengurangkan usaha penaakulan mereka, satu tingkah laku yang bertentangan dengan intuisi, kerana lebih banyak pemikiran diperlukan apabila menangani masalah yang sukar.
Dalam banyak kes, walaupun diberi algoritma yang betul, model masih gagal memberikan penyelesaian. Ini mendedahkan batasan yang mendalam dalam keupayaannya untuk menyesuaikan diri dan menggunakan peraturan dalam persekitaran baharu.
Cabaran "teori umum"
Menjawab kajian ini, sarjana Amerika Gary Marcus, salah seorang suara yang skeptikal tentang keupayaan sebenar AI, menyifatkan penemuan Apple sebagai "agak dahsyat."
Dalam surat berita Substack peribadinya, beliau menyatakan: "Sesiapa yang berpendapat bahawa model bahasa besar (LLM) adalah laluan langsung kepada AGI sedang menipu diri mereka sendiri."
Bersetuju dengan pandangan ini, Andrew Rogoyski, seorang pakar di Human-Centered AI Institute (University of Surrey, UK), percaya penemuan ini menunjukkan kemungkinan bahawa industri teknologi sedang menuju ke "jalan buntu": "Apabila model hanya berfungsi dengan baik dengan masalah mudah dan sederhana, tetapi gagal sepenuhnya pada tahap kesukaran yang semakin meningkat, jelas terdapat masalah dengan pendekatan semasa."
Satu perkara tertentu yang diketengahkan oleh Apple ialah kekurangan keupayaan "penaakulan umum", iaitu keupayaan untuk melanjutkan pemahaman daripada situasi tertentu kepada situasi yang serupa.
Apabila pengetahuan tidak dapat dipindahkan seperti yang biasa dilakukan oleh manusia, model semasa mudah jatuh ke dalam keadaan "pembelajaran hafalan": kuat dalam corak berulang, tetapi lemah dalam pemikiran logik atau deduksi.
Tambahan pula, kajian mendapati bahawa model penaakulan berskala besar menggunakan sumber pengiraan dengan berulang kali melakukan langkah yang betul untuk masalah mudah, tetapi memilih pendekatan yang salah dari awal untuk masalah yang sedikit lebih kompleks.
Laporan itu menguji pelbagai model terkemuka, termasuk o3 OpenAI, Gemini Thinking Google, Claude 3.7 Sonnet-Thinking dan DeepSeek-R1. Walaupun Anthropic, Google dan DeepSeek masih belum memberi maklum balas, OpenAI enggan mengulas.
Kajian Apple tidak menafikan pencapaian AI dalam bahasa, imejan atau data raya. Walau bagaimanapun, ia mengetengahkan titik buta yang diabaikan: keupayaan untuk berfikir secara tulen, yang merupakan teras kepada pencapaian kecerdasan sebenar.
Sumber: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html








Komen (0)