Yapay zekanın lise mezuniyet sınavı sorusunu çözmesi sadece 10 saniye sürüyor

Birçok aday, matematik testinin uzun ve 90 dakikada tamamlanmasının zor olduğunu belirtti. Ancak bu, yapay zekâ için bir engel değil. Fotoğraf: Duy Hieu .

26 Haziran öğleden sonra, adaylar 90 dakikalık süre sınırlamasıyla 2025 lise bitirme sınavının matematik testini tamamladılar. Bu , Milli Eğitim Bakanlığı'nın önceki yıllara göre daha zor olduğu söylenen yeni bir format uygulamasının ardından yapılan ilk sınavdı.

Bu yılki matematik soruları uzun ve zaman alıcı oldukları için adaylar için zorlayıcı olsa da, yapay zeka sohbet robotlarının çözmesi çok zaman almıyor. Yapay zekanın etkinliğini test etmek için Tri Thuc - Znews , bu yılki lise mezuniyet sınavının bazı kompozisyon sorularını çözmek üzere ChatGPT, Google Gemini, Claude AI ve Grok AI dahil olmak üzere 4 sohbet robotu kullandı.

Hızlı işlem, "tutarlı veya tutarsız" sonuçlar

0109 test kodunun kısa sorularını yanıtlamak için sohbet robotları kullanıldı. Bunlar arasında ChatGPT ve Gemini, en az gecikmeyle en doğru sonuçları verdi. Her iki sohbet robotu da 6 soruyu, her soru için 7-15 saniyelik sürelerle yanıtladı. Ancak Gemini, yukarıdaki sorunları hızlı ve kapsamlı bir şekilde işlemeye yardımcı olan 2.5 Flash modeliyle (mantık yürütme yok) çözebildi.

Bu arada Claude, hesaplamalarında tamamen başarısız oldu ve sürekli yanlış sonuçlar verdi. Yeniden hesaplama yapması istenmesine rağmen, Anthropic'in sohbet robotu yine aynı cevabı verdi. Grok, soruların yaklaşık yarısını doğru yanıtladı, ancak uzun bir yanıt süresiyle (her soru için 2 dakikadan fazla).

ChatGPT ve Grok için bu soruları çözmek, çok daha uzun süren çıkarım versiyonunu gerektirir. Gemini oldukça hızlıdır, en hızlı soru belki 5 saniyede çözülür ve yalnızca 2.5 Flash modelini kullanır.

ChatGPT düşünce sürecini oldukça canlı bir şekilde sunuyor.

Hız açısından, Gemini en hızlı işlem süresine sahipti ve problem başına ortalama 10 saniyeden az bir sürede, ancak daha karmaşık, uzun ve anlaşılması zor çözümlere sahipti. İkinci sırada, ortalama 25 saniye süren ChatGPT çıkarım modeli vardı. Bu arada, doğru sonuçları elde etmesine rağmen, Grok'un akıl yürütmesi uzun sürdü ve orta derecede zor bir soru için 148 saniye harcadı.

Her ne kadar Vietnamca sorulsa da, üç model de akıl yürütme süreçlerini İngilizce olarak sundu. ChatGPT, çok sayıda resim, grafik ve anlaşılması kolay analizle en kısa açıklamaya sahipti. Gemini ayrıca modelin düşüncelerini açıklığa kavuşturdu ve sırayla sundu.

Özellikle Grok, en insani düşünce sürecine sahip. Model, tıpkı bir öğrencinin matematik problemi çözerken yaptığı gibi, sürekli olarak kendine "ama bekle, tam tersi" diye soruyor. Bu durum, sohbet robotunun problemi gereğinden fazla düşünmesine ve yanıt süresinin yavaşlamasına neden olabiliyor.

Grok'un sonuçlarını açıklaması 148 saniye sürdü.

Yapay zeka matematiği insanlardan farklı çözüyor

Apple tarafından yapılan bir araştırma, çıkarım modellerinin aslında beyinlerini kullanmadığını, bunun yerine mevcut verilerden ezbere öğrendiklerini ortaya koydu. Çalışma ayrıca, yapay zekanın insanlardan tamamen farklı bir düşünce sürecine sahip olduğunu ve bu nedenle bir problemi çözme şeklimizi taklit etmeye çalıştığını öne sürüyor. Ancak, akıl yürütme sürecinin model tarafından uydurulmuş olması da mümkün.

Lise bitirme sınavlarının giderek zorlaştığı ve yüksek analitik düşünme gerektirdiği bir ortamda, referans ve öğrenme için yapay zeka kullanımı artık öğrenciler için yabancı değil. Yukarıda kullanılan sohbet robotları arasında ChatGPT ve Gemini, kendi kendine öğrenenlerin zor problemlerin çözümlerine başvurmaları için uygun iki seçenektir.

2025 lise mezuniyet sınavında Hanoi öğrencileri. Fotoğraf: Viet Ha .

Ancak, yapay zekâ hızlı ve kolay sonuçlar üretse de, akıl yürütme süreci henüz geliştiriciler tarafından tam olarak anlaşılamamıştır. Akademik bir ortamda, insan düşünme yeteneği hâlâ temel faktördür. Ho Chi Minh şehrindeki uluslararası bir üniversitede öğretim görevlisi olan Bay Tuan Nguyen, yapay zekâ kullanımının normal olduğunu, ancak öğrencilerin dersi anlamaları, eleştirel düşünme becerileri geliştirmeleri ve daha etkili çalışmak için akıllı araçlara hakim olmaları gerektiğini söyledi.

Newton Ortaokulu Matematik Bölüm Başkanı Bay Tran Manh Tung, sınavın formatının Eğitim ve Öğretim Bakanlığı tarafından daha önce yayınlanan örnek sınava benzediğini belirtti. "Ancak, sınavın ölçeğini hesaplarsak, gerçek sınavın deneme sınavından daha zor ve daha fazla farklılaştırıcı olduğunu görürüz," diye belirtti.

Bu yılki sınav, üç Roma rakamına karşılık gelen üç bölümden oluşuyor. Bay Tung, ilk iki bölümün çoktan seçmeli olduğunu ve adayların kolayca puan almasının çok zor olmadığını söyledi. Ancak geri kalan bölümler, yıllar önceki deneme formatına benzer kısa sorulardan oluşuyor; ancak adayların yalnızca sonuçları doldurmaları gerekiyor, sunmaları gerekmiyor.

Kaynak: https://znews.vn/ai-chi-mat-10-giay-de-giai-bai-toan-thi-tot-nghiep-thpt-post1563990.html