Kunstig intelligens-programmer har oppnådd mange suksesser de siste årene - Foto: REUTERS
Vi kan ikke observere hele prosessen fra inndata til utdataresultater av store språkmodeller (LLM-er).
For å gjøre det lettere å forstå, har forskere brukt vanlige begreper som «resonnement» for å beskrive hvordan disse programmene fungerer. De sier også at programmene kan «tenke», «resonnere» og «forstå» slik mennesker gjør.
Overdrivelse av AIs evner
I løpet av de siste to årene har mange AI-ledere brukt hyperbole for å overdrive enkle tekniske bragder, ifølge ZDNET 6. september.
I september 2024 kunngjorde OpenAI at o1-resonnementsmodellen «bruker en slutningskjede når de løser problemer, på samme måte som mennesker tenker lenge når de står overfor vanskelige spørsmål».
AI-forskere protesterer imidlertid. De mener at AI ikke har menneskelig intelligens.
En studie av arXiv-databasen utført av en gruppe forfattere ved Arizona State University (USA) har bekreftet resonneringsevnen til AI med et enkelt eksperiment.
Resultatene viste at «inferens gjennom tankekjeden er en skjør illusjon», ikke en reell logisk mekanisme, men bare en sofistikert form for mønstermatching.
Begrepet «tankekjede» (CoT) lar AI ikke bare komme opp med et endelig svar, men også presentere hvert trinn i den logiske resonnementet, som i GPT-o1- eller DeepSeek V1-modellene.
Illustrasjon av OpenAIs GPT-2-språkmodell - Foto: ECHOCRAFTAI
Sjekk ut hva AI faktisk gjør
Storskala analyser viser at LLM har en tendens til å stole på semantikk og overfladiske ledetråder snarere enn logiske resonnementsprosesser, sier forskerne.
«LLM konstruerer overfladiske logiske kjeder basert på lærte inputassosiasjoner, og mislykkes ofte i oppgaver som avviker fra konvensjonelle resonneringsmetoder eller kjente mønstre», forklarer teamet.
For å teste hypotesen om at LLM bare matchet mønstre og ikke faktisk trakk slutninger, trente teamet GPT-2, en åpen kildekode-modell utgitt av OpenAI i 2019.
Modellen ble i utgangspunktet trent på svært enkle oppgaver på de 26 engelske bokstavene, som å reversere noen bokstaver, for eksempel å gjøre «APPLE» om til «EAPPL». Så endret teamet oppgaven og ba GPT-2 om å håndtere den.
Resultatene viser at GPT-2 ikke kan løse oppgaver som ikke er inkludert i treningsdataene nøyaktig ved hjelp av CoT.
I stedet prøver modellen å anvende de mest like lærde oppgavene. Så dens «slutninger» kan høres rimelige ut, men resultatene er ofte feil.
Gruppen konkluderte med at man ikke burde stole for mye på eller blindt stole på svarene til LLM, da de kan produsere «tull som høres veldig overbevisende ut».
De understreket også behovet for å forstå den sanne naturen til AI, unngå hype og slutte å promotere at AI har evnen til å resonnere som mennesker.
Kilde: https://tuoitre.vn/nghien-cuu-moi-ai-khong-suy-luan-nhu-con-nguoi-20250907152120294.htm
Kommentar (0)