AI bruker bare 10 sekunder på å løse problemet med avgangseksamen fra videregående skole

Mange kandidater kommenterte at matteprøven var lang og vanskelig å fullføre på 90 minutter. Dette er imidlertid ikke et hinder for AI. Foto: Duy Hieu .

Ettermiddagen 26. juni fullførte kandidatene matteprøven i avgangseksamenen for videregående skole i 2025, med en tidsbegrensning på 90 minutter. Dette var den første prøven etter at Kunnskapsdepartementet tok i bruk et nytt format, som skal være vanskeligere enn tidligere år.

Selv om årets matteoppgaver kan være vanskelige for kandidatene fordi de er lange og tidkrevende, tar ikke AI-chatboter mye tid å behandle. For å teste effektiviteten til AI brukte Tri Thuc - Znews fire chatboter, inkludert ChatGPT, Google Gemini, Claude AI og Grok AI, for å løse noen essayspørsmål fra årets videregående eksamen.

Rask behandling, resultater som ikke er like bra

Chatboter ble brukt til å svare på de korte spørsmålene i testkode 0109. Blant dem ga ChatGPT og Gemini de mest korrekte resultatene med minst mulig forsinkelse. Begge chatbotene svarte på 6 spørsmål med en tid på 7–15 sekunder for hvert spørsmål. Gemini klarte imidlertid å løse problemene ovenfor med 2.5 Flash-modellen (uten resonnement), noe som bidrar til rask og omfattende behandling.

I mellomtiden mislyktes Claude fullstendig i beregningene sine og ga feil resultater hele tiden. Til tross for at han ble bedt om å beregne på nytt, ga Anthropics chatbot fortsatt det samme svaret. Grok svarte riktig på omtrent halvparten av spørsmålene, men med lang responstid (mer enn 2 minutter for hvert spørsmål).

For ChatGPT og Grok krever løsningen av disse spørsmålene inferensversjonen, som tar mye lengre tid. Gemini er veldig rask, kanskje 5 sekunder for det raskeste spørsmålet, og bruker bare 2.5 Flash-modellen.

ChatGPT presenterer tankeprosessen veldig levende.

Når det gjaldt hastighet, hadde Gemini den raskeste behandlingstiden, med et gjennomsnitt på under 10 sekunder per problem, men hadde mer komplekse, ordrike og vanskelige løsninger å følge. Neste kom ChatGPTs inferensmodell, som hadde et gjennomsnitt på 25 sekunder. Samtidig som Grok fikk riktige resultater, brukte han lang tid på å resonnere, med 148 sekunder for et moderat vanskelig spørsmål.

Selv om de ble spurt på vietnamesisk, presenterte alle tre modellene sin resonneringsprosess på engelsk. ChatGPT hadde den korteste beskrivelsen, med mange illustrasjoner, grafer og lettforståelig analyse. Gemini klargjorde og presenterte også modellens tenkning i rekkefølge.

Spesielt Grok har den mest menneskelignende tankeprosessen. Modellen spør seg selv stadig «vent imidlertid, tvert imot», omtrent som en student ville gjort når den løser et matteproblem. Dette kan føre til at chatboten tenker for mye over problemet og reduserer responstiden.

Det tok Grok 148 sekunder å utdype resultatene sine.

AI løser matematikk annerledes enn mennesker

En studie fra Apple fant at inferensmodeller faktisk ikke bruker hjernen deres, men i stedet bare lærer utenat fra eksisterende data. Studien antyder også at AI har en helt annen tankeprosess enn mennesker, så de prøver å etterligne måten vi løser et problem på. Det er imidlertid mulig at resonneringsprosessen bare er oppdiktet av modellen.

I en kontekst der avgangseksamen fra videregående skole blir stadig vanskeligere og krever høy analytisk tenkning, er bruk av AI til referanse og læring ikke lenger fremmed for studenter. Blant chatbotene som er brukt ovenfor, er ChatGPT og Gemini to passende alternativer for selvstudenter som vil finne løsninger på vanskelige problemer.

Hanoi- elever på avgangseksamenen fra videregående skole i 2025. Foto: Viet Ha .

Selv om AI produserer resultater raskt og enkelt, er ikke dens resonneringsprosess fullt ut forstått av utviklere ennå. I et akademisk miljø er menneskelig tenkeevne fortsatt kjernefaktoren. Tuan Nguyen, foreleser ved et internasjonalt universitet i Ho Chi Minh-byen, sa at bruk av AI er normalt, men studentene må forstå lærdommen, praktisere kritisk tenkning og mestre smarte verktøy for å studere mer effektivt.

Tran Manh Tung, leder for matematikkavdelingen ved Newton Secondary School, kommenterte at eksamenen lignet i format på eksempeleksamenen som tidligere ble utgitt av Kunnskapsdepartementet . «Men hvis vi setter den på skalaen, var den virkelige eksamen vanskeligere og hadde mer differensiering enn prøveeksamenen», kommenterte han.

Årets eksamen består av tre deler som tilsvarer tre romertall. De to første delene er flervalgsspørsmål, ikke for vanskelige for kandidatene å få poeng lett, sa Tung. De resterende delene er imidlertid korte spørsmål, lik essayformatet fra mange år siden, bortsett fra at kandidatene bare trenger å fylle ut resultatene og ikke trenger å presentere dem.

Rask behandling, resultater som ikke er like bra

AI løser matematikk annerledes enn mennesker

Kommentar (0)