Pozoruhodné setkání, kde se matematici snaží porazit umělou inteligenci.

Jednoho víkendu v polovině května se konala uzavřená schůzka matematiků. Třicet předních světových matematiků tajně odcestovalo do Berkeley v Kalifornii v USA, aby se zúčastnilo konfrontace s chatbotem schopným „uvažovat“. Tento chatbot měl za úkol řešit problémy, které si sami matematici vymysleli, aby se otestovaly jeho schopnosti řešit problémy.

Po dvou po sobě jdoucích dnech bombardování otázkami na úrovni profesora matematici s úžasem zjistili, že tento chatbot dokáže vyřešit některé z nejobtížnějších problémů, jaké kdy byly v historii vyřešeny.

„Viděl jsem kolegy, kteří přímo říkali, že tento rozsáhlý jazykový model se blíží úrovni matematického génia,“ řekl časopisu Scientific American Ken Ono, profesor na Virginské univerzitě a předseda a porotce setkání.

Výše zmíněný chatbot je založen na o4-mini , což je model velkého jazyka (LLM) určený pro komplexní uvažování. Tento produkt OpenAI je trénován k provádění sofistikovaných kroků uvažování. Podobné schopnosti má i podobný model od Googlu s názvem Gemini 2.5 Flash.

Stejně jako předchozí LLM ChatGPT se i o4-mini učí předpovídat další slovo v textovém řetězci. Rozdíl však spočívá v tom, že o4-mini je lehčí a flexibilnější verze, trénovaná na hlubokých datech a pečlivě vyladěná lidskými silami – což jí umožňuje ponořit se do matematických problémů, kam se předchozí modely nedokázaly dostat.

Aby OpenAI prověřila a posoudila schopnosti o4-mini, pověřila Epoch AI – neziskovou organizaci specializující se na testování modelů LLM – vytvořením 300 dříve nepublikovaných matematických otázek. Zatímco tradiční LLM dokáží řešit mnoho složitých problémů, když byly konfrontovány se zcela novými otázkami, většina z nich vyřešila správně pouze méně než 2 %. To ukazuje, že jim chybí skutečná schopnost uvažování.

V rámci svého nejnovějšího evaluačního projektu si Epoch AI najala jako vedoucího mladého matematika, PhD. Elliota Glazera. Nový projekt s názvem FrontierMath bude spuštěn v září 2024.

Projekt shromáždil nové otázky napříč čtyřmi úrovněmi obtížnosti, od bakalářských a magisterských až po hloubkový výzkum. V dubnu 2025 Glazer zjistil, že o4-mini dokáže vyřešit přibližně 20 % problémů. Proto jej okamžitě přesunul na úroveň 4 – požadoval, aby řešil problémy, se kterými by se potýkali i velmi pokročilí matematici.

Účastníci museli podepsat dohodu o mlčenlivosti a komunikovat pouze prostřednictvím šifrované aplikace Signal, protože používání e-mailů mohlo být naskenováno a LLM mohlo „naučit se“ jejich obsah, čímž by se zfalšovala data hodnocení.

Za každý problém, který o4-mini nedokáže vyřešit, získá tvůrce problému odměnu 7 500 dolarů.

Původní pracovní skupina sice pomalu, ale jistě přicházela s otázkami. Glazer se však rozhodl věci urychlit uspořádáním dvoudenního osobního setkání ve dnech 17. a 18. května. Zúčastnilo se ho třicet matematiků rozdělených do šestičlenných skupin, kteří mezi sebou soupeřili – ne v řešení problémů, ale v vymýšlení problémů, které umělá inteligence vyřešit nedokázala.

Večer 17. května začal být Ken Ono frustrovaný chatbotem, který prokazoval úroveň matematických schopností daleko přesahující očekávání, což týmu ztěžovalo jeho „chytání do pasti“. „Přišel jsem s problémem, který by odborníci z oboru rozpoznali jako otevřený problém v teorii čísel – problém vhodný pro doktorát,“ vyprávěl.

Když se tedy zeptal o4-mini, byl ohromen, když viděl, jak chatbot analyzuje, zdůvodňuje a poskytuje správné řešení za pouhých 10 minut. Konkrétně během prvních dvou minut prozkoumal a pochopil veškerý relevantní materiál. Poté navrhl experimentovat s jednodušší verzí problému, aby se naučil správný přístup.

O pět minut později chatbot poskytl správnou odpověď, doprovázenou sebevědomým – dokonce poněkud arogantním – tónem. „Začal se chovat lstivě,“ vyprávěla Ono, „a dokonce dodal: ‚Není třeba citovat, už jsem vypočítala záhadné číslo!‘“

Poté, co Ono 18. května ráno neuspěl s umělou inteligencí, okamžitě poslal týmu varovnou zprávu prostřednictvím Signalu. „Nebyl jsem na takový model vůbec připravený,“ řekl. „Nikdy jsem v počítačovém modelu neviděl takový druh uvažování. Myslel jako skutečný vědec . A to bylo děsivé.“

Přestože se matematikům nakonec podařilo najít 10 otázek, které o4-mini zmátly, nedokázali skrýt své úžas nad rychlostí vývoje umělé inteligence za pouhý jeden rok.

Ono přirovnala zkušenosti ze spolupráce s o4-mini ke spolupráci s mimořádně talentovaným kolegou. Yang Hui He, matematik z Institutu pro matematické vědy v Londýně a průkopník v aplikaci umělé inteligence v matematice, poznamenal: „Tohle dokáže velmi, velmi dobrý postgraduální student – a dokonce i víc než to.“

A stojí za zmínku, že umělá inteligence pracuje mnohem rychleji než lidé. Zatímco lidem trvá vyřešení týdny nebo měsíce, o4-mini trvá jen několik minut.

Vzrušení kolem souboje důvtipu s o4-mini bylo doprovázeno značnými obavami. Ono i He varovali, že schopnosti o4-mini by mohly vést k přehnané sebedůvěře. „Máme důkaz indukcí, důkaz sporem a nyní důkaz… drtivou silou,“ řekl He. „Pokud něco tvrdíte s dostatečnou jistotou, ostatní se budou cítit zastrašeni. Myslím, že o4-mini tento typ důkazu zvládlo: cokoli říká, je velmi jisté.“

Na konci schůze začali matematici přemýšlet o budoucnosti matematiky. Diskutovali o možnosti „páté úrovně“ – otázek, které nedokážou vyřešit ani ti nejlepší matematici na světě. Pokud umělá inteligence této úrovně dosáhne, role matematika se dramaticky změní: mohl by se pak stát tazatelem, který bude s umělou inteligencí interagovat a vést ji v jejím uvažování s cílem objevit nové matematické pravdy – podobně jako profesor pracuje s postgraduálními studenty.

„Už nějakou dobu říkám svým kolegům, že by bylo velkou chybou předpokládat, že se obecná umělá inteligence nikdy neobjeví, že je to jen počítač,“ řekl Ono. „Nechci panikařit, ale v některých ohledech tyto rozsáhlé jazykové modely již začaly překonávat většinu nejlepších postgraduálních studentů na světě.“

Komentář (0)