Satu pertemuan luar biasa di mana ahli matematik berusaha untuk mengatasi kecerdasan buatan.

Pada suatu hujung minggu di pertengahan Mei, satu mesyuarat tertutup ahli matematik telah berlangsung. Tiga puluh ahli matematik terkemuka dunia secara rahsia pergi ke Berkeley, California, Amerika Syarikat, untuk menyertai konfrontasi dengan chatbot yang mampu "menaakul". Chatbot ini ditugaskan untuk menyelesaikan masalah yang direka oleh ahli matematik itu sendiri, bagi menguji kebolehan penyelesaian masalahnya.

Selepas dua hari berturut-turut membedil mereka dengan soalan peringkat profesor, ahli matematik terkejut apabila mendapati bahawa chatbot ini boleh menyelesaikan beberapa masalah paling sukar yang pernah diselesaikan dalam sejarah.

"Saya telah melihat rakan sekerja mengatakan secara terang-terangan bahawa model bahasa berskala besar ini menghampiri tahap genius matematik," kata Ken Ono, seorang profesor di Universiti Virginia dan pengerusi serta hakim mesyuarat itu, kepada Scientific American.

Chatbot yang dinyatakan di atas adalah berdasarkan o4-mini , model bahasa besar (LLM) yang direka untuk penaakulan yang kompleks. Produk OpenAI ini dilatih untuk melaksanakan langkah-langkah penaakulan yang canggih. Model serupa daripada Google, yang dipanggil Gemini 2.5 Flash, juga mempunyai keupayaan yang serupa.

Seperti LLM ChatGPT sebelumnya, o4-mini belajar untuk meramalkan perkataan seterusnya dalam rentetan teks. Walau bagaimanapun, perbezaannya terletak pada hakikat bahawa o4-mini ialah versi yang lebih ringan dan lebih fleksibel, dilatih menggunakan data mendalam dan menerima penalaan manusia yang dekat—membolehkannya menyelidiki masalah matematik yang tidak dapat dicapai oleh model sebelumnya.

Untuk mencabar dan menilai keupayaan o4-mini, OpenAI telah menugaskan Epoch AI—sebuah organisasi bukan berasaskan keuntungan yang pakar dalam menguji model LLM—untuk mencipta 300 soalan matematik yang belum diterbitkan sebelum ini. Walaupun LLM tradisional boleh menyelesaikan banyak masalah yang kompleks, apabila dicabar dengan soalan yang sama sekali baharu, kebanyakannya hanya menyelesaikan kurang daripada 2% dengan betul. Ini menunjukkan bahawa mereka kekurangan keupayaan penaakulan yang sebenar.

Dalam projek penilaian terbarunya, Epoch AI telah merekrut PhD matematik muda Elliot Glazer sebagai penerajunya. Projek baharu yang dipanggil FrontierMath akan dilancarkan pada September 2024.

Projek ini mengumpulkan soalan baharu merentasi empat tahap kesukaran, bermula daripada peringkat sarjana muda dan pascasiswazah hinggalah penyelidikan mendalam. Pada April 2025, Glazer mendapati bahawa o4-mini boleh menyelesaikan kira-kira 20% daripada masalah tersebut. Oleh itu, beliau segera memindahkannya ke tahap 4 – memerlukannya menyelesaikan masalah yang sukar untuk diselesaikan oleh ahli matematik yang sangat maju sekalipun.

Peserta dikehendaki menandatangani perjanjian kerahsiaan, hanya berkomunikasi melalui aplikasi Signal yang disulitkan, kerana penggunaan e-mel boleh diimbas dan kandungannya "dipelajari" oleh LLM, sekali gus memalsukan data penilaian.

Bagi setiap masalah yang tidak dapat diselesaikan oleh o4-mini, penentu masalah akan menerima hadiah $7,500.

Kumpulan kerja pada mulanya agak perlahan tetapi mantap dalam mengemukakan soalan. Walau bagaimanapun, Glazer memutuskan untuk mempercepatkan proses dengan menganjurkan mesyuarat secara bersemuka selama dua hari pada 17–18 Mei. Tiga puluh ahli matematik hadir, dibahagikan kepada kumpulan enam orang, bersaing antara satu sama lain—bukan untuk menyelesaikan masalah, tetapi untuk mereka bentuk masalah yang tidak dapat diselesaikan oleh AI.

Menjelang petang 17 Mei, Ken Ono mula berasa kecewa dengan chatbot itu, yang menunjukkan tahap kebolehan matematik yang jauh melebihi jangkaan, menyukarkan pasukan untuk "memerangkapnya". "Saya mengemukakan masalah yang akan dikenal pasti oleh pakar industri sebagai masalah terbuka dalam teori nombor – masalah yang sesuai untuk PhD," katanya.

Akibatnya, apabila dia bertanya kepada o4-mini, dia terpegun melihat chatbot itu menganalisis, menaakul dan memberikan penyelesaian yang betul hanya dalam 10 minit. Secara khususnya, dalam dua minit pertama, ia telah menyelidik dan memahami semua bahan yang berkaitan. Kemudian, ia mencadangkan untuk bereksperimen dengan versi masalah yang lebih mudah untuk mempelajari pendekatan tersebut.

Lima minit kemudian, chatbot itu memberikan jawapan yang betul, disertai dengan nada yakin—malah agak sombong. “Ia mula bertindak licik,” Ono menceritakan, “Dan ia juga menambah: ‘Tidak perlu memetik, saya sudah mengira nombor misteri itu!’”

Setelah gagal menentang AI, pada pagi 18 Mei, Ono segera menghantar mesej amaran kepada pasukan melalui Signal. “Saya langsung tidak bersedia untuk berhadapan dengan model seperti ini,” katanya. “Saya tidak pernah melihat penaakulan seperti ini dalam model komputer. Ia berfikir seperti seorang saintis sebenar berfikir. Dan itu sungguh menakutkan.”

Walaupun ahli matematik akhirnya berjaya menemui 10 soalan yang membingungkan o4-mini, mereka tidak dapat menyembunyikan kehairanan mereka terhadap kelajuan pembangunan AI hanya dalam masa satu tahun.

Ono membandingkan pengalaman bekerja dengan o4-mini dengan bekerjasama dengan rakan sekerja yang sangat berbakat. Yang Hui He, seorang ahli matematik di Institut Sains Matematik di London dan perintis dalam mengaplikasikan AI kepada matematik, mengulas: “Inilah yang boleh dilakukan oleh pelajar siswazah yang sangat, sangat baik — malah lebih daripada itu.”

Dan perlu diingatkan bahawa AI berfungsi jauh lebih pantas daripada manusia. Walaupun manusia mengambil masa berminggu-minggu atau berbulan-bulan untuk menyelesaikannya, o4-mini hanya mengambil masa beberapa minit.

Kegembiraan yang menyelubungi pertempuran akal sehat dengan o4-mini disertai dengan kebimbangan yang besar. Ono dan He memberi amaran bahawa keupayaan o4-mini boleh menyebabkan keyakinan yang berlebihan. “Kita mempunyai bukti melalui induksi, bukti melalui percanggahan, dan kini bukti melalui… daya yang luar biasa,” katanya. “Jika anda menyatakan sesuatu dengan keyakinan yang cukup, orang lain akan berasa terintimidasi. Saya fikir o4-mini telah menguasai bukti jenis ini: apa sahaja yang dikatakannya adalah sangat pasti.”

Setelah mesyuarat itu berakhir, ahli matematik mula memikirkan masa depan matematik. Mereka membincangkan kemungkinan "peringkat kelima"—soalan yang tidak dapat diselesaikan oleh ahli matematik terbaik dunia sekalipun. Jika AI mencapai tahap itu, peranan ahli matematik akan berubah secara dramatik: mereka mungkin menjadi penyoal, berinteraksi dan membimbing AI dalam penaakulannya untuk menemui kebenaran matematik baharu—sama seperti cara seorang profesor bekerja dengan pelajar siswazah.

“Saya telah memberitahu rakan sekerja saya sejak sekian lama bahawa adalah satu kesilapan besar untuk menganggap bahawa kecerdasan buatan umum tidak akan pernah muncul, bahawa ia hanyalah sebuah komputer,” kata Ono. “Saya tidak mahu panik, tetapi dalam beberapa aspek, model bahasa yang besar ini telah mula mengatasi kebanyakan pelajar siswazah terbaik di dunia.”

Komen (0)