Matematikçilerin yapay zekayı alt etmeyi hedeflediği olağanüstü bir buluşma.

Mayıs ayının ortalarında bir hafta sonu, matematikçilerin kapalı kapılar ardında bir toplantısı gerçekleşti. Dünyanın önde gelen otuz matematikçisi, "akıl yürütme" yeteneğine sahip bir sohbet robotuyla karşı karşıya gelmek üzere gizlice ABD'nin Kaliforniya eyaletindeki Berkeley şehrine gitti. Bu sohbet robotunun görevi, problem çözme yeteneklerini test etmek amacıyla matematikçilerin kendileri tarafından tasarlanan problemleri çözmekti.

İki gün boyunca profesör seviyesindeki sorularla bombardımana tutulan matematikçiler, bu sohbet robotunun tarihte çözülmüş en zor problemlerden bazılarını çözebildiğini keşfedince hayrete düştüler.

Virginia Üniversitesi'nde profesör ve toplantının başkanı ve jüri üyesi olan Ken Ono, Scientific American'a verdiği demeçte, "Meslektaşlarımın bu büyük ölçekli dil modelinin matematiksel deha seviyesine yaklaştığını açıkça söylediklerini gördüm" dedi.

Bahsi geçen chatbot, karmaşık akıl yürütme için tasarlanmış büyük bir dil modeli (LLM) olan o4-mini'ye dayanmaktadır. OpenAI'nin bu ürünü, gelişmiş akıl yürütme adımlarını gerçekleştirmek üzere eğitilmiştir. Google'ın Gemini 2.5 Flash adlı benzer bir modeli de benzer yeteneklere sahiptir.

Önceki ChatGPT LLM'leri gibi, o4-mini de bir metin dizisindeki bir sonraki kelimeyi tahmin etmeyi öğrenir. Ancak fark, o4-mini'nin daha hafif, daha esnek bir sürüm olması, derin veri üzerinde eğitilmesi ve yakından insan müdahalesiyle ayarlanmasıdır; bu da önceki modellerin ulaşamadığı matematiksel problemlere inebilmesini sağlar.

OpenAI, o4-mini'nin yeteneklerini test etmek ve değerlendirmek için, LLM modellerini test etme konusunda uzmanlaşmış kar amacı gütmeyen bir kuruluş olan Epoch AI'ye daha önce yayınlanmamış 300 matematiksel soru oluşturma görevi verdi. Geleneksel LLM'ler birçok karmaşık problemi çözebilirken, tamamen yeni sorularla karşılaştıklarında çoğu yalnızca %2'den daha azını doğru çözdü. Bu, gerçek akıl yürütme yeteneğinden yoksun olduklarını göstermektedir.

Epoch AI, en son değerlendirme projesinde genç matematik doktora öğrencisi Elliot Glazer'ı lider olarak görevlendirdi. FrontierMath adı verilen yeni proje, Eylül 2024'te başlatılacak.

Proje, lisans ve yüksek lisans seviyesinden derinlemesine araştırmaya kadar dört zorluk seviyesinde yeni sorular topladı. Nisan 2025'te Glazer, o4-mini'nin problemlerin yaklaşık %20'sini çözebildiğini tespit etti. Bu nedenle, onu hemen 4. seviyeye taşıdı; bu da, son derece ileri düzey matematikçilerin bile zorlanacağı problemleri çözmesini gerektiriyordu.

Katılımcılardan gizlilik sözleşmesi imzalamaları ve yalnızca şifrelenmiş Signal uygulaması üzerinden iletişim kurmaları istendi; çünkü e-posta kullanımı taranabilir ve içeriği LLM tarafından "öğrenilebilir", bu da değerlendirme verilerinin tahrif edilmesine yol açabilirdi.

o4-mini'nin çözemediği her problem için, problemi hazırlayan kişi 7.500 dolarlık bir ödül alacaktır.

İlk çalışma grubu, sorular üretme konusunda yavaş ama istikrarlıydı. Ancak Glazer, 17-18 Mayıs tarihlerinde iki günlük yüz yüze bir toplantı düzenleyerek işleri hızlandırmaya karar verdi. Otuz matematikçi, altışar kişilik gruplara ayrılarak katıldı ve birbirleriyle yarıştı; yarışmanın amacı problemleri çözmek değil, yapay zekanın çözemeyeceği problemler tasarlamaktı.

17 Mayıs akşamına gelindiğinde, Ken Ono, beklentilerin çok üzerinde matematiksel yetenek sergileyen ve ekibin onu "tuzağa düşürmesini" zorlaştıran sohbet robotundan dolayı hayal kırıklığına uğramaya başlamıştı. "Sektör uzmanlarının sayı teorisinde açık bir problem olarak kabul edeceği, doktora tezi için uygun bir problem buldum," diye anlattı.

Sonuç olarak, o4-mini'ye sorduğunda, chatbot'un sadece 10 dakika içinde analiz yapıp, mantık yürütüp doğru çözümü sunmasına hayret etti. Özellikle, ilk iki dakika içinde ilgili tüm materyali araştırıp kavradı. Ardından, yaklaşımı öğrenmek için sorunun daha basit bir versiyonuyla deneme yapmayı önerdi.

Beş dakika sonra, sohbet robotu kendinden emin, hatta biraz kibirli bir tonla doğru cevabı verdi. Ono, "Sinsi davranmaya başladı," diye anlattı, "Hatta şunu da ekledi: 'Alıntı yapmanıza gerek yok, gizemli sayıyı zaten hesapladım!'"

Yapay zekâ karşısında başarısız olan Ono, 18 Mayıs sabahı Signal üzerinden ekibe hemen bir uyarı mesajı gönderdi. "Böyle bir modelle başa çıkmaya tamamen hazırlıksızdım," dedi. "Bir bilgisayar modelinde bu tür bir mantık yürütme biçimini daha önce hiç görmemiştim. Gerçek bir bilim insanı gibi düşünüyordu. Ve bu çok korkutucuydu."

Matematikçiler sonunda o4-mini'yi şaşırtan 10 soru bulmayı başarsalar da, yapay zekanın sadece bir yıl içinde bu kadar hızlı gelişmesine duydukları şaşkınlığı gizleyemediler.

Ono, o4-mini ile çalışma deneyimini son derece yetenekli bir meslektaşla iş birliği yapmaya benzetti. Londra'daki Matematik Bilimleri Enstitüsü'nde matematikçi ve yapay zekayı matematiğe uygulama konusunda öncü olan Yang Hui He ise şu yorumu yaptı: "Çok, çok iyi bir yüksek lisans öğrencisinin yapabileceği şey bu - hatta daha fazlası bile."

Ayrıca yapay zekanın insanlardan çok daha hızlı çalıştığını belirtmekte fayda var. İnsanların çözmesi haftalar veya aylar sürerken, o4-mini sadece birkaç dakika içinde sorunu çözüyor.

o4-mini ile zekâ savaşının heyecanı, önemli bir endişeyle birlikte geldi. Hem Ono hem de He, o4-mini'nin yeteneklerinin aşırı özgüvene yol açabileceği konusunda uyardı. He, "Tümevarım yoluyla ispat, çelişki yoluyla ispat ve şimdi de ezici güç yoluyla ispatımız var," dedi. "Bir şeyi yeterince güvenle söylerseniz, diğerleri korkacaktır. Bence o4-mini bu tür ispatta ustalaştı: ne söylerse söylesin, çok kesindir."

Toplantı sona ererken, matematikçiler matematiğin geleceği üzerine düşünmeye başladılar. Dünyanın en iyi matematikçilerinin bile çözemediği soruları içeren "beşinci seviye" olasılığını tartıştılar. Yapay zeka bu seviyeye ulaşırsa, matematikçinin rolü önemli ölçüde değişecektir: O zaman matematikçiler, tıpkı bir profesörün yüksek lisans öğrencileriyle çalışması gibi, yapay zekayla etkileşim kurarak ve onu akıl yürütme sürecinde yönlendirerek yeni matematiksel gerçekleri keşfeden soru soran kişiler haline gelebilirler.

Ono, “Meslektaşlarıma bir süredir genel yapay zekanın asla ortaya çıkmayacağını, sadece bir bilgisayar olduğunu varsaymanın büyük bir hata olacağını söylüyorum,” dedi. “Panik yapmak istemiyorum, ancak bazı açılardan bu büyük dil modelleri, dünyanın en iyi yüksek lisans öğrencilerinin çoğunu şimdiden geride bırakmaya başladı.”

(Vietnam+)

Kaynak: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp