Pada suatu hujung minggu pada pertengahan Mei, satu pertemuan rahsia dunia matematik telah berlaku. 30 ahli matematik terkemuka dunia secara rahsia mengembara ke Berkeley, California, Amerika Syarikat, untuk menghadiri konfrontasi dengan chatbot yang mampu "menaakul". Chatbot ditugaskan untuk menyelesaikan masalah yang ditulis oleh ahli matematik sendiri, untuk menguji kebolehannya menyelesaikan masalah.
Selepas dua hari melontarkan soalan peringkat profesor secara berterusan, ahli matematik terkejut apabila menyedari bahawa chatbot ini boleh menyelesaikan beberapa masalah paling sukar yang pernah diselesaikan dalam sejarah.
"Saya melihat rakan sekerja mengatakan secara terang-terangan bahawa model bahasa besar ini menghampiri tahap genius matematik," Ken Ono, seorang profesor di Universiti Virginia dan pengerusi mesyuarat dan hakim, memberitahu Scientific American.
Chatbot yang menarik perhatian kami dikuasakan oleh o4-mini , model bahasa besar (LLM) yang direka untuk penaakulan yang kompleks. Ia adalah produk OpenAI dan dilatih untuk melakukan penaakulan yang canggih. Model setara daripada Google, Gemini 2.5 Flash, mempunyai keupayaan yang serupa.
Seperti LLM ChatGPT sebelumnya, o4-mini belajar untuk meramalkan perkataan seterusnya dalam rentetan teks. Walau bagaimanapun, o4-mini ialah versi yang lebih ringan dan fleksibel yang dilatih pada data mendalam dan ditala dengan teliti oleh manusia — membolehkannya menyelidiki masalah matematik yang tidak dapat dicapai oleh model terdahulu.
Untuk menguji kebolehan o4-mini, OpenAI meminta Epoch AI, sebuah organisasi bukan untung yang pakar dalam menguji model LLM, untuk mencipta 300 soalan matematik yang tidak diterbitkan sebelum ini. Walaupun LLM tradisional boleh menyelesaikan banyak masalah yang rumit, apabila dicabar dengan soalan yang benar-benar baharu, kebanyakan daripada mereka mendapat kurang daripada 2% betul, menunjukkan bahawa mereka tidak benar-benar mampu membuat alasan.
Dalam projek penilaian baharu, Epoch AI merekrut ahli matematik muda Dr. Elliot Glazer sebagai ketuanya. Projek baharu, yang dipanggil FrontierMath , akan digunakan mulai September 2024.
Projek ini mengumpul soalan baharu pada empat tahap kesukaran, daripada sarjana muda, siswazah, hingga penyelidikan lanjutan. Menjelang April 2025, Glazer mendapati bahawa o4-mini boleh menyelesaikan kira-kira 20% masalah. Jadi dia bergerak ke tahap 4—memintanya untuk menyelesaikan masalah yang walaupun ahli matematik mahir akan bergelut.
Peserta terpaksa menandatangani perjanjian kerahsiaan dan hanya boleh berkomunikasi melalui Isyarat aplikasi yang disulitkan, kerana menggunakan e-mel boleh membenarkan LLM mengimbas dan "menghidu" kandungan, dengan itu memalsukan data penilaian.
Setiap masalah yang tidak dapat diselesaikan oleh o4-mini akan membawa penyoal hadiah sebanyak 7,500 USD.
Pasukan awal membuat kemajuan yang perlahan, tetapi stabil dalam mengemukakan soalan. Tetapi Glazer memutuskan untuk mempercepatkan perkara dengan mengadakan pertemuan secara peribadi pada 17–18 Mei. 30 ahli matematik yang mengambil bahagian dibahagikan kepada enam kumpulan, bersaing antara satu sama lain-bukan untuk menyelesaikan masalah, tetapi untuk menghasilkan masalah yang tidak dapat diselesaikan oleh AI.
Menjelang petang 17 Mei, Ken Ono mula kecewa dengan chatbot, yang menunjukkan tahap kecekapan matematik jauh melebihi apa yang dijangkakan, menyukarkan pasukan untuk "memerangkap"nya. "Saya datang dengan masalah yang pakar dalam bidang itu akan mengenali sebagai masalah terbuka dalam teori nombor-masalah yang sesuai untuk PhD," katanya.
Akibatnya, apabila dia bertanya kepada o4-mini, dia terpegun melihat chatbot menganalisis, menaakul dan menghasilkan penyelesaian yang betul dalam masa 10 minit sahaja. Khususnya, dalam dua minit pertama, ia mempelajari dan memahami semua dokumen yang berkaitan. Kemudian, ia dicadangkan untuk mencuba versi masalah yang lebih mudah untuk mempelajari cara mendekatinya.
Lima minit kemudian, chatbot memberikan jawapan yang betul, bercakap dengan nada yakin — malah sombong —. "Ia mula menjadi nakal," kata Ono, "Dan ia menambah: 'Tidak perlu sebut harga kerana saya telah mengetahui nombor rahsia!'"
Dikalahkan oleh AI, pada awal pagi 18 Mei, Ono segera menghantar mesej amaran kepada pasukan melalui Signal. "Saya langsung tidak bersedia untuk berhadapan dengan model seperti ini," katanya. "Saya tidak pernah melihat alasan seperti ini dalam model komputer. Ia berfikir seperti seorang saintis sebenar akan berfikir. Dan itu menakutkan."
Walaupun ahli matematik akhirnya berjaya mencari 10 soalan yang menyebabkan o4-mini buntu, mereka masih tidak dapat menyembunyikan rasa terkejut mereka pada kelajuan pembangunan AI dalam masa satu tahun sahaja.
Ono membandingkan pengalaman bekerja dengan o4-mini dengan bekerjasama dengan rakan sekerja yang sangat berbakat. Dan Yang Hui He, seorang ahli matematik di London Institute of Mathematical Sciences dan perintis dalam menerapkan AI kepada matematik, mengulas: "Inilah yang boleh dilakukan oleh pelajar PhD yang sangat berbakat - dan lebih banyak lagi."
Dan perlu diingatkan bahawa AI melakukannya lebih cepat daripada manusia. Walaupun manusia mengambil masa beberapa minggu atau bulan untuk menyelesaikannya, o4-mini hanya mengambil masa beberapa minit.
Keseronokan yang menyelubungi o4-mini bukan tanpa kebimbangan. Kedua-dua Ono dan He memberi amaran bahawa keupayaan o4-mini boleh membuat orang terlalu yakin. “Kami mempunyai bukti melalui induksi, bukti dengan percanggahan, dan kini bukti dengan… amat menggembirakan,” katanya. "Jika anda mengatakan sesuatu dengan keyakinan yang cukup, orang akan takut. Saya rasa o4-mini telah menguasai bukti seperti ini: ia mengatakan segala-galanya dengan penuh keyakinan."
Apabila mesyuarat berakhir, ahli matematik mula memikirkan masa depan matematik. Mereka membincangkan kemungkinan "tahap kelima"—soalan yang tidak dapat diselesaikan oleh ahli matematik terbaik dunia. Jika AI mencapai ambang itu, peranan ahli matematik akan berubah secara mendadak: mungkin mereka akan menjadi penyoal, berinteraksi dan membimbing penaakulan AI untuk menemui kebenaran matematik baharu—sama seperti cara seorang profesor bekerja dengan pelajar siswazah.
"Saya telah memberitahu rakan sekerja saya untuk masa yang lama bahawa adalah satu kesilapan besar untuk berfikir bahawa AI umum tidak akan berlaku, bahawa ia hanya komputer," kata Ono. "Saya tidak mahu panik, tetapi dalam beberapa cara model bahasa besar ini sudah mula mengatasi kebanyakan pelajar PhD terbaik dunia."
Sumber: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Komen (0)