O întâlnire remarcabilă în care matematicienii încearcă să învingă inteligența artificială.

Într-un weekend de la mijlocul lunii mai, a avut loc o întâlnire cu ușile închise a matematicienilor. Treizeci dintre cei mai importanți matematicieni ai lumii au călătorit în secret la Berkeley, California, SUA, pentru a participa la o confruntare cu un chatbot capabil de „raționament”. Acest chatbot avea sarcina de a rezolva probleme concepute chiar de matematicieni, pentru a-și testa abilitățile de rezolvare a problemelor.

După două zile consecutive în care i-au bombardat cu întrebări de nivel profesoral, matematicienii au fost uimiți să descopere că acest chatbot putea rezolva unele dintre cele mai dificile probleme rezolvate vreodată în istorie.

„I-am văzut pe colegi spunând direct că acest model lingvistic la scară largă se apropie de nivelul geniului matematic”, a declarat pentru Scientific American Ken Ono, profesor la Universitatea din Virginia și președintele și juratul întâlnirii.

Chatbot-ul menționat anterior se bazează pe o4-mini , un model de limbaj extins (LLM) conceput pentru raționament complex. Acest produs OpenAI este antrenat să execute pași sofisticați de raționament. Un model similar de la Google, numit Gemini 2.5 Flash, posedă, de asemenea, capabilități similare.

La fel ca modelele anterioare de învățare în cunoștință de cauză ChatGPT, o4-mini învață să prezică următorul cuvânt dintr-un șir de text. Cu toate acestea, diferența constă în faptul că o4-mini este o versiune mai ușoară și mai flexibilă, antrenată pe baza datelor detaliate și care primește o ajustare umană atentă, permițându-i să abordeze probleme matematice pe care modelele anterioare nu le puteau aborda.

Pentru a testa și evalua capacitățile modelului o4-mini, OpenAI a comandat Epoch AI - o organizație non-profit specializată în testarea modelelor LLM - crearea a 300 de întrebări matematice nepublicate anterior. În timp ce LLM-urile tradiționale pot rezolva multe probleme complexe, atunci când au fost provocate cu întrebări complet noi, majoritatea au rezolvat corect doar sub 2% din cazuri. Acest lucru demonstrează că le lipsește o adevărată capacitate de raționament.

În cel mai recent proiect de evaluare al său, Epoch AI l-a recrutat pe tânărul doctor în matematică Elliot Glazer ca lider al proiectului. Noul proiect, numit FrontierMath , va fi lansat în septembrie 2024.

Proiectul a colectat întrebări noi pe patru niveluri de dificultate, de la studii universitare de licență și masterat până la cercetare aprofundată. În aprilie 2025, Glazer a descoperit că o4-mini putea rezolva aproximativ 20% din probleme. Prin urmare, l-a mutat imediat la nivelul 4 – necesitând rezolvarea unor probleme cu care chiar și matematicienii foarte avansați s-ar confrunta cu dificultăți.

Participanții au fost obligați să semneze un acord de confidențialitate, comunicând doar prin intermediul aplicației Signal criptate, deoarece utilizarea e-mailurilor putea fi scanată, iar conținutul acestora putea fi „învățat” de către LLM, falsificând astfel datele de evaluare.

Pentru fiecare problemă pe care o4-mini nu o poate rezolva, cel care a rezolvat-o va primi un premiu de 7.500 de dolari.

Grupul de lucru inițial a fost lent, dar constant în a veni cu întrebări. Cu toate acestea, Glazer a decis să accelereze lucrurile organizând o întâlnire față în față de două zile, în perioada 17-18 mai. Au participat treizeci de matematicieni, împărțiți în grupuri de câte șase, concurând unii împotriva altora - nu pentru a rezolva probleme, ci pentru a concepe probleme pe care inteligența artificială nu le putea rezolva.

Până în seara zilei de 17 mai, Ken Ono a început să se simtă frustrat de chatbot, care demonstra un nivel de abilitate matematică care depășea cu mult așteptările, ceea ce îngreuna „prinderea” lui de către echipă. „Am venit cu o problemă pe care experții din industrie ar recunoaște-o ca fiind o problemă deschisă în teoria numerelor – o problemă potrivită pentru un doctorat”, a povestit el.

Drept urmare, când a întrebat despre o4-mini, a fost uimit să vadă chatbot-ul analizând, raționând și oferind soluția corectă în doar 10 minute. Mai exact, în primele două minute, a cercetat și a înțeles tot materialul relevant. Apoi, a sugerat experimentarea cu o versiune mai simplă a problemei pentru a învăța abordarea.

Cinci minute mai târziu, chatbot-ul a oferit răspunsul corect, însoțit de un ton încrezător – chiar oarecum arogant. „A început să se comporte viclean”, a povestit Ono, „Și chiar a adăugat: «Nu e nevoie să citez, am calculat deja numărul misterios!»”

După ce a eșuat împotriva inteligenței artificiale, în dimineața zilei de 18 mai, Ono a trimis imediat un mesaj de alertă echipei prin Signal. „Eram complet nepregătit să mă confrunt cu un model ca acesta”, a spus el. „Nu mai văzusem niciodată acest tip de raționament într-un model computerizat. Gândea așa cum gândește un om de știință adevărat. Și asta a fost terifiant.”

Deși matematicienii au reușit în cele din urmă să găsească 10 întrebări care i-au derutat pe cei de la o4-mini, nu și-au putut ascunde uimirea față de viteza de dezvoltare a inteligenței artificiale în doar un an.

Ono a comparat experiența de lucru cu o4-mini cu colaborarea cu un coleg extrem de talentat. Yang Hui He, matematician la Institutul de Științe Matematice din Londra și pionier în aplicarea inteligenței artificiale în matematică, a comentat: „Asta poate face un student absolvent foarte, foarte bun - chiar mai mult decât atât.”

Și merită menționat faptul că inteligența artificială funcționează mult mai rapid decât oamenii. În timp ce oamenilor le ia săptămâni sau luni să rezolve problema, o4-mini durează doar câteva minute.

Emoția din jurul bătăliei minților cu o4-mini a fost însoțită de o îngrijorare considerabilă. Atât Ono, cât și He au avertizat că capacitățile lui o4-mini ar putea duce la o încredere excesivă. „Avem demonstrații prin inducție, demonstrații prin contradicție și acum demonstrații prin... forță copleșitoare”, a spus He. „Dacă afirmi ceva cu suficientă încredere, ceilalți se vor simți intimidați. Cred că o4-mini a stăpânit acest tip de demonstrație: orice spune este foarte sigur.”

Pe măsură ce întâlnirea s-a încheiat, matematicienii au început să reflecteze asupra viitorului matematicii. Au discutat despre posibilitatea unui „al cincilea nivel” - întrebări pe care nici măcar cei mai buni matematicieni din lume nu le pot rezolva. Dacă inteligența artificială atinge acest nivel, rolul matematicianului se va schimba dramatic: acesta ar putea deveni apoi cel care pune întrebări, interacționând cu inteligența artificială și ghidând-o în raționamentul său pentru a descoperi noi adevăruri matematice - similar modului în care un profesor lucrează cu studenții absolvenți.

„Le spun colegilor mei de ceva vreme că ar fi o greșeală gravă să presupunem că inteligența artificială generală nu va apărea niciodată, că este doar un computer”, a spus Ono. „Nu vreau să intru în panică, dar, în anumite privințe, aceste modele lingvistice mari au început deja să depășească performanța majorității celor mai buni studenți absolvenți din lume.”

(Vietnam+)

Sursă: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp