
Kunstig intelligens-programmer har oppnådd mange gjennombrudd de siste årene - Foto: REUTERS
Vi kan ikke observere hele prosessen fra inndata til utdataresultater av store språkmodeller (LLM-er).
For å gjøre det lettere å forstå, har forskere brukt vanlige begreper som «resonnement» for å beskrive hvordan disse programmene fungerer. De sier også at programmene kan «tenke», «resonnere» og «forstå» slik mennesker gjør.
Overdriver evnene til AI.
I løpet av de siste to årene har mange AI-ledere brukt overdrevet språk for å hype opp enkle tekniske bragder, ifølge ZDNET 6. september.
I september 2024 kunngjorde OpenAI at o1-resonnementsmodellen «bruker en slutningskjede når de løser problemer, på samme måte som mennesker tenker lenge når de står overfor vanskelige spørsmål».
KI-forskere er imidlertid uenige. De hevder at KI ikke har menneskelig intelligens.
En studie av arXiv-databasen utført av en gruppe forfattere ved Arizona State University (USA) har bekreftet resonneringsevnen til AI med et enkelt eksperiment.
Resultatene viste at «inferens gjennom tankekjeden er en skjør illusjon», ikke en reell logisk mekanisme, men bare en sofistikert form for mønstermatching.
Begrepet «tankekjede» (CoT) lar AI ikke bare komme opp med et endelig svar, men også presentere hvert trinn i den logiske resonnementet, som i GPT-o1- eller DeepSeek V1-modellene.

Illustrasjon av GPT-2-språkmodellen fra OpenAI - Foto: ECHOCRAFTAI
Sjekk ut hva AI faktisk gjør.
Forskningsteamet uttalte at storskala analyser viste at LLM har en tendens til å stole mer på semantikk og overfladiske ledetråder enn på logiske resonneringsprosesser.
«LLM konstruerer overfladiske logiske kjeder basert på lærte inputassosiasjoner, og mislykkes ofte i oppgaver som avviker fra konvensjonelle resonneringsmetoder eller kjente mønstre», forklarer teamet.
For å teste hypotesen om at LLM bare matchet mønstre og ikke faktisk trakk slutninger, trente teamet GPT-2, en åpen kildekode-modell utgitt av OpenAI i 2019.
Modellen ble i utgangspunktet trent på svært enkle oppgaver på de 26 engelske bokstavene, som å reversere noen bokstaver, for eksempel å gjøre «APPLE» om til «EAPPL». Så endret teamet oppgaven og ba GPT-2 om å håndtere den.
Resultatene viste at GPT-2 ikke kunne løse oppgaver nøyaktig ved hjelp av CoT for oppgaver som ikke var inkludert i treningsdataene.
I stedet forsøker modellen å anvende lærte oppgaver så tett som mulig. Derfor kan «resonnementet» høres logisk ut, men resultatene er ofte feil.
Gruppen konkluderte med at man ikke burde stole for mye på eller blindt stole på svarene til LLM, da de kan produsere «tull som høres veldig overbevisende ut».
De understreket også behovet for å forstå den sanne naturen til AI, unngå overdrivelser og slutte å promotere ideen om at AI har menneskelignende resonneringsevner.
Kilde: https://tuoitre.vn/nghien-cuu-moi-ai-khong-suy-luan-nhu-con-nguoi-20250907152120294.htm






Kommentar (0)