W weekend w połowie maja odbyło się zamknięte spotkanie matematyków. Trzydziestu czołowych matematyków świata potajemnie pojechało do Berkeley w Kalifornii w USA, aby wziąć udział w konfrontacji z chatbotem zdolnym do „rozumowania”. Zadaniem tego chatbota było rozwiązywanie problemów wymyślonych przez samych matematyków, aby przetestować jego zdolności rozwiązywania problemów.
Po dwóch dniach bombardowania ich pytaniami na poziomie profesorskim matematycy byli zdumieni, odkrywając, że ten chatbot jest w stanie rozwiązać niektóre z najtrudniejszych problemów w historii.
„Widziałem, jak koledzy mówili wprost, że ten model języka na dużą skalę zbliża się do poziomu matematycznego geniuszu” – powiedział Ken Ono, profesor na Uniwersytecie Wirginii, przewodniczący i juror spotkania, w wywiadzie dla Scientific American.
Wspomniany chatbot opiera się na o4-mini , modelu dużego języka (LLM) zaprojektowanym do złożonego rozumowania. Ten produkt OpenAI jest trenowany do wykonywania zaawansowanych kroków rozumowania. Podobny model od Google, o nazwie Gemini 2.5 Flash, również posiada podobne możliwości.
Podobnie jak poprzednie modele ChatGPT LLM, o4-mini uczy się przewidywać kolejne słowo w ciągu tekstowym. Różnica polega jednak na tym, że o4-mini to lżejsza, bardziej elastyczna wersja, trenowana na głębokich danych i dostrajana przez człowieka – co pozwala jej zagłębiać się w problemy matematyczne, do których poprzednie modele nie były w stanie dotrzeć.
Aby przetestować i ocenić możliwości o4-mini, OpenAI zleciło Epoch AI – organizacji non-profit specjalizującej się w testowaniu modeli LLM – stworzenie 300 wcześniej niepublikowanych pytań matematycznych. Podczas gdy tradycyjne modele LLM potrafią rozwiązać wiele złożonych problemów, w przypadku zupełnie nowych pytań większość z nich rozwiązuje je poprawnie w mniej niż 2%. To dowodzi, że brakuje im prawdziwej zdolności rozumowania.
W swoim najnowszym projekcie ewaluacyjnym Epoch AI zatrudniło młodego doktora matematyki Elliota Glazera na stanowisko kierownika. Nowy projekt o nazwie FrontierMath zostanie uruchomiony we wrześniu 2024 roku.
W ramach projektu zebrano nowe pytania na czterech poziomach trudności, od studiów licencjackich i magisterskich po badania szczegółowe. W kwietniu 2025 roku Glazer odkrył, że o4-mini rozwiązuje około 20% problemów. Dlatego natychmiast przeniósł go na poziom 4 – wymagając od niego rozwiązywania problemów, z którymi mieliby problem nawet wysoko zaawansowani matematycy.
Uczestnicy musieli podpisać umowę o zachowaniu poufności i komunikować się wyłącznie za pomocą szyfrowanej aplikacji Signal, ponieważ korzystanie z poczty e-mail mogło zostać zeskanowane, a jej treść „poznana” przez LLM, co mogłoby doprowadzić do sfałszowania danych ewaluacyjnych.
Za każdy problem, którego o4-mini nie będzie w stanie rozwiązać, osoba, która go rozwiąże, otrzyma nagrodę w wysokości 7500 dolarów.
Początkowa grupa robocza powoli, ale systematycznie formułowała pytania. Glazer postanowił jednak przyspieszyć prace, organizując dwudniowe spotkanie stacjonarne w dniach 17–18 maja. Wzięło w nim udział trzydziestu matematyków, podzielonych na sześcioosobowe grupy, rywalizujących ze sobą – nie o rozwiązanie problemów, ale o opracowanie problemów, których sztuczna inteligencja nie byłaby w stanie rozwiązać.
Wieczorem 17 maja Ken Ono zaczął odczuwać frustrację z powodu chatbota, który wykazywał poziom zdolności matematycznych znacznie przekraczający oczekiwania, co utrudniało zespołowi jego „uwięzienie”. „Wymyśliłem problem, który eksperci branżowi uznaliby za otwarty problem z teorii liczb – problem nadający się na doktorat” – wspominał.
W rezultacie, kiedy zapytał o4-mini, był oszołomiony, widząc, jak chatbot analizuje, wyciąga wnioski i podaje prawidłowe rozwiązanie w zaledwie 10 minut. Dokładniej, w ciągu pierwszych dwóch minut przeanalizował i ogarnął cały istotny materiał. Następnie zasugerował eksperymentowanie z prostszą wersją problemu, aby poznać podejście.
Pięć minut później chatbot udzielił poprawnej odpowiedzi, której towarzyszył pewny – wręcz arogancki – ton. „Zaczął działać przebiegle” – relacjonował Ono – „i nawet dodał: »Nie ma potrzeby cytowania, już obliczyłem tę tajemniczą liczbę!«”.
Po porażce ze sztuczną inteligencją, rankiem 18 maja Ono natychmiast wysłał zespołowi wiadomość alarmową za pośrednictwem Signala. „Byłem kompletnie nieprzygotowany do pracy z takim modelem” – powiedział. „Nigdy nie widziałem takiego rozumowania w modelu komputerowym. Myślał jak prawdziwy naukowiec . I to było przerażające”.
Chociaż matematykom ostatecznie udało się znaleźć 10 pytań, które wprawiły o4-mini w osłupienie, nie potrafili ukryć zdziwienia tempem, w jakim rozwinęła się sztuczna inteligencja w ciągu zaledwie roku.
Ono porównał doświadczenie pracy z o4-mini do współpracy z niezwykle utalentowanym kolegą. Yang Hui He, matematyk z Instytutu Nauk Matematycznych w Londynie i pionier w stosowaniu sztucznej inteligencji w matematyce, skomentował: „To jest to, co potrafi bardzo, bardzo dobry student studiów magisterskich – a nawet więcej”.
Warto zauważyć, że sztuczna inteligencja działa znacznie szybciej niż ludzie. Podczas gdy ludziom zajmuje to tygodnie lub miesiące, rozwiązanie problemu w o4-mini zajmuje tylko kilka minut.
Ekscytacji wokół bitwy na spryt z o4-mini towarzyszył niepokój. Zarówno Ono, jak i He ostrzegali, że możliwości o4-mini mogą prowadzić do nadmiernej pewności siebie. „Mamy dowód indukcyjny, dowód przez zaprzeczenie, a teraz dowód przez… przytłaczającą siłę” – powiedział He. „Jeśli coś stwierdzisz z wystarczającą pewnością, inni poczują się zastraszeni. Myślę, że o4-mini opanowało ten rodzaj dowodu: cokolwiek twierdzi, jest bardzo pewne”.
Po zakończeniu spotkania matematycy zaczęli rozważać przyszłość matematyki. Dyskutowali o możliwości „piątego poziomu” – pytań, których nie potrafią rozwiązać nawet najlepsi matematycy świata. Jeśli sztuczna inteligencja osiągnie ten poziom, rola matematyka diametralnie się zmieni: może on stać się osobą zadającą pytania, wchodzącą w interakcje ze sztuczną inteligencją i kierującą jej rozumowaniem w celu odkrywania nowych prawd matematycznych – podobnie jak profesor pracuje ze studentami studiów podyplomowych.
„Od jakiegoś czasu powtarzam moim kolegom, że założenie, że sztuczna inteligencja nigdy się nie pojawi, że to tylko komputer, byłoby poważnym błędem” – powiedział Ono. „Nie chcę panikować, ale pod pewnymi względami te rozbudowane modele językowe już zaczęły przewyższać większość najlepszych studentów na świecie”.
Source: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Komentarz (0)