Egy figyelemre méltó találkozó, ahol a matematikusok megpróbálják legyőzni a mesterséges intelligenciát.

Május közepén egy zártkörű matematikus találkozóra került sor. A világ harminc vezető matematikusa titokban Berkeley-be, Kaliforniába utazott, hogy részt vegyen egy „gondolkodni” képes chatbottal való összecsapásban. A chatbot feladata az volt, hogy megoldja a maguk a matematikusok által kitalált problémákat, és tesztelje a problémamegoldó képességét.

Miután két egymást követő napon professzori szintű kérdésekkel bombázták őket, a matematikusok megdöbbenve fedezték fel, hogy ez a chatbot képes megoldani a történelem legnehezebb problémáit.

„Láttam kollégáimat nyíltan kijelenteni, hogy ez a nagyléptékű nyelvi modell a matematikai zsenialitás szintjét közelíti” – mondta Ken Ono, a Virginiai Egyetem professzora, az ülés elnöke és bírája a Scientific Americannak.

A fent említett chatbot az o4-mini-n alapul, amely egy összetett gondolkodásra tervezett nagyméretű nyelvi modell (LLM). Az OpenAI ezen terméke kifinomult gondolkodási lépések végrehajtására van betanítva. A Google hasonló modellje, a Gemini 2.5 Flash, szintén hasonló képességekkel rendelkezik.

A korábbi ChatGPT LLM modellekhez hasonlóan az o4-mini is megtanulja megjósolni a szöveges karakterlánc következő szavát. A különbség azonban abban rejlik, hogy az o4-mini egy könnyebb, rugalmasabb verzió, amelyet mélyreható adatokon képeztek ki, és szoros emberi finomhangolást kap, így olyan matematikai problémákba is belemerülhet, amelyeket a korábbi modellek nem tudtak elérni.

Az o4-mini képességeinek tesztelésére és tesztelésére az OpenAI megbízta az Epoch AI-t – egy LLM-modellek tesztelésére szakosodott nonprofit szervezetet – 300 korábban publikálatlan matematikai kérdés létrehozásával. Míg a hagyományos LLM-ek számos összetett problémát képesek megoldani, amikor teljesen új kérdésekkel szembesültek, a legtöbbjüknek csak kevesebb mint 2%-át sikerült helyesen megoldaniuk. Ez azt mutatja, hogy hiányzik belőlük a valódi érvelési képesség.

Legújabb értékelési projektjében az Epoch AI a fiatal matematika PhD-t, Elliot Glazert toborozta vezetőnek. Az új, FrontierMath névre keresztelt projekt 2024 szeptemberében indul.

A projekt négy nehézségi szinten gyűjtött össze új kérdéseket, az alap- és posztgraduális hallgatóktól az alapkutatásig. 2025 áprilisában Glazer megállapította, hogy az o4-mini a problémák körülbelül 20%-át képes megoldani. Ezért azonnal 4. szintre emelte – olyan problémák megoldását követelve meg tőle, amelyekkel még a leghaladóbb matematikusok is nehezen boldogulnának.

A résztvevőknek titoktartási megállapodást kellett aláírniuk, és csak a titkosított Signal alkalmazáson keresztül kommunikáltak, mivel az e-mailek használatát beolvashatta, és a tartalmát az LLM „megtanulhatta”, ezáltal meghamisítva az értékelési adatokat.

Minden olyan feladatért, amelyet az o4-mini nem tud megoldani, a feladat kitalálója 7500 dolláros díjazásban részesül.

A kezdeti munkacsoport lassan, de biztosan állt elő a kérdésekkel. Glazer azonban úgy döntött, hogy felgyorsítja a folyamatot egy kétnapos személyes találkozó megszervezésével május 17-18-án. Harminc matematikus vett részt, hatfős csoportokra osztva, akik egymással versenyeztek – nem azért, hogy problémákat oldjanak meg, hanem hogy olyan problémákat találjanak ki, amelyeket a mesterséges intelligencia nem tudott megoldani.

Május 17-én estére Ken Ono kezdett frusztrált lenni a chatbot miatt, amely a várakozásokat messze felülmúló matematikai képességeket mutatott, megnehezítve a csapat számára a „csapdába ejtését”. „Egy olyan problémával álltam elő, amelyet az iparági szakértők a számelmélet nyitott problémájaként ismernének fel – egy olyan problémával, amely PhD-képzésre is alkalmas” – mesélte.

Ennek eredményeként, amikor megkérdezte az o4-minit, megdöbbent, hogy a chatbot mindössze 10 perc alatt elemzi, indokolja és megadja a helyes megoldást. Pontosabban, az első két percben kutatta és feldolgozta az összes releváns anyagot. Ezután azt javasolta, hogy kísérletezzenek a probléma egy egyszerűbb változatával, hogy elsajátítsák a megközelítést.

Öt perccel később a chatbot megadta a helyes választ, magabiztos – sőt, kissé arrogáns – hangnemben. „Elkezdett ravaszkodni” – mesélte Ono –, „és még hozzátette: »Idézni nem kell, már kiszámoltam a rejtélyes számot!«”

Miután május 18-án reggel kudarcot vallott a mesterséges intelligencia ellen, Ono azonnal riasztási üzenetet küldött a csapatnak a Signal segítségével. „Teljesen felkészületlen voltam egy ilyen modellel való foglalkozni” – mondta. „Még soha nem láttam ilyen gondolkodást számítógépes modellben. Úgy gondolkodott, mint egy igazi tudós . És ez rémisztő volt.”

Bár a matematikusoknak végül sikerült 10 olyan kérdést találniuk, amelyek megdöbbentették az o4-minit, nem tudták leplezni ámulatukat a mesterséges intelligencia mindössze egy év alatti fejlődésének sebessége láttán.

Ono az o4-minivel való közös munka tapasztalatait egy rendkívül tehetséges kollégával való együttműködéshez hasonlította. Yang Hui He, a londoni Matematikai Tudományok Intézetének matematikusa és a mesterséges intelligencia matematikai alkalmazásának úttörője így nyilatkozott: „Erre képes egy nagyon-nagyon jó végzős hallgató – sőt, még többre is.”

És érdemes megjegyezni, hogy a mesterséges intelligencia sokkal gyorsabban dolgozik, mint az emberek. Míg az embereknek hetekbe vagy hónapokba telik megoldani, az o4-mini csak néhány percet vesz igénybe.

Az o4-minivel vívott eszeveszett csatát övező izgalmat jelentős aggodalom övezte. Ono és He is figyelmeztettek, hogy az o4-mini képességei túlzott önbizalomhoz vezethetnek. „Van bizonyításunk indukcióval, bizonyításunk ellentmondással, és most már bizonyításunk… elsöprő erővel” – mondta He. „Ha valamit kellő magabiztossággal állítasz, mások megfélemlítve érzik majd magukat. Azt hiszem, az o4-mini elsajátította ezt a fajta bizonyítást: bármit is mond, az nagyon biztos.”

A találkozó zárásaként a matematikusok elkezdték latolgatni a matematika jövőjét. Megvitatták egy „ötödik szint” lehetőségét – olyan kérdéseket, amelyeket még a világ legjobb matematikusai sem tudnak megoldani. Ha a mesterséges intelligencia eléri ezt a szintet, a matematikus szerepe drámaian megváltozik: kérdezőkké válhatnak, akik kapcsolatba lépnek a mesterséges intelligenciával, és irányítják azt az új matematikai igazságok felfedezése érdekében – hasonlóan ahhoz, ahogyan egy professzor dolgozik a posztgraduális hallgatókkal.

„Már egy ideje mondogatom a kollégáimnak, hogy súlyos hiba lenne azt feltételezni, hogy az általános mesterséges intelligencia soha nem fog megjelenni, hogy az csak egy számítógép” – mondta Ono. „Nem akarok pánikba esni, de bizonyos tekintetben ezek a nagy nyelvi modellek már elkezdték felülmúlni a világ legjobb posztgraduális hallgatóinak többségét.”

(Vietnám+)

Forrás: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp