
Semakin kuat modelnya, semakin lemah "pemikirannya"?
Dalam laporan yang baru saja diterbitkan, para peneliti Apple mengevaluasi kinerja Large Reasoning Models (LRM) dalam menangani masalah logika dengan tingkat kesulitan yang semakin meningkat, seperti Menara Hanoi atau masalah Penyeberangan Sungai .
Hasilnya mengejutkan: ketika dihadapkan dengan masalah yang sangat kompleks, akurasi model AI canggih tidak hanya menurun, tetapi "runtuh sepenuhnya."
Yang lebih mengkhawatirkan adalah sebelum kinerjanya anjlok, model-model tersebut mulai... mengurangi upaya penalaran mereka, sebuah perilaku yang bertentangan dengan intuisi, karena dibutuhkan lebih banyak pemikiran ketika berhadapan dengan masalah yang sulit.
Dalam banyak kasus, bahkan ketika diberikan algoritma yang tepat, model-model tersebut tetap gagal memberikan solusi. Hal ini menunjukkan keterbatasan mendalam dalam kemampuan mereka untuk beradaptasi dan menerapkan aturan di lingkungan baru.
Tantangan "teori umum"
Menanggapi penelitian ini, cendekiawan Amerika Gary Marcus, salah satu suara yang skeptis tentang kemampuan sebenarnya dari AI, menyebut temuan Apple "sangat menghancurkan."
Dalam buletin Substack pribadinya, ia menyatakan: "Siapa pun yang berpikir bahwa model bahasa besar (LLM) adalah jalan langsung menuju AGI sedang menipu diri sendiri."
Senada dengan pandangan ini, Andrew Rogoyski, seorang ahli di Human-Centered AI Institute (Universitas Surrey, Inggris), percaya bahwa temuan ini menunjukkan kemungkinan bahwa industri teknologi sedang menuju "jalan buntu": "Ketika model hanya berkinerja baik dengan masalah yang sederhana dan sedang, tetapi sepenuhnya gagal pada tingkat kesulitan yang meningkat, jelas ada masalah dengan pendekatan saat ini."
Salah satu poin khusus yang disorot oleh Apple adalah kurangnya kemampuan "penalaran umum", yaitu kemampuan untuk memperluas pemahaman dari situasi spesifik ke situasi serupa.
Ketika pengetahuan tidak dapat ditransfer dengan cara yang biasanya dilakukan manusia, model-model saat ini mudah jatuh ke dalam keadaan "pembelajaran hafalan": kuat dalam pola berulang, tetapi lemah dalam berpikir logis atau deduksi.
Selain itu, penelitian telah menemukan bahwa model penalaran skala besar mengkonsumsi sumber daya komputasi dengan berulang kali melakukan langkah-langkah yang benar untuk masalah sederhana, tetapi memilih pendekatan yang salah sejak awal untuk masalah yang sedikit lebih kompleks.
Laporan tersebut menguji berbagai model terkemuka, termasuk o3 dari OpenAI, Gemini Thinking dari Google, Claude 3.7 Sonnet-Thinking, dan DeepSeek-R1. Meskipun Anthropic, Google, dan DeepSeek belum memberikan tanggapan, OpenAI menolak berkomentar.
Penelitian Apple tidak menyangkal pencapaian AI dalam bahasa, citra, atau big data. Namun, penelitian tersebut menyoroti titik buta yang selama ini diabaikan: kemampuan untuk bernalar secara tulus, yang merupakan inti dari pencapaian kecerdasan sejati.
Sumber: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html







Komentar (0)