AI-chatboter blir stadig mer «gale».

En ny bølge av «inferenssystemer» fra selskaper som OpenAI gjør feilinformasjon hyppigere. Det farlige er at disse selskapene heller ikke vet hvorfor.

ZNews•08/05/2025

I april varslet en AI-bot som håndterte teknisk støtte for Cursor, et spirende verktøy for programmerere, noen kunder om en endring i selskapets retningslinjer. Varselet opplyste spesifikt at de ikke lenger hadde lov til å bruke Cursor på mer enn én datamaskin.

På forum og sosiale medier publiserte kunder innlegg for å uttrykke sinne. Noen kansellerte til og med Cursor-kontoene sine. Noen ble imidlertid enda mer rasende da de innså hva som hadde skjedd: AI-boten hadde annonsert en endring i retningslinjene som ikke eksisterte.

«Vi har ikke en slik policy. Du kan selvfølgelig bruke Cursor på flere maskiner. Dessverre er dette et unøyaktig svar fra en AI-assistert bot», skrev Michael Truell, administrerende direktør og medgründer av selskapet, i et Reddit-innlegg.

Spredningen av falske nyheter er omfattende og ukontrollert.

Mer enn to år etter ChatGPTs fremvekst bruker teknologiselskaper, kontorarbeidere og vanlige forbrukere AI-roboter til en rekke oppgaver med økende hyppighet.

Det finnes imidlertid fortsatt ingen måte å garantere at disse systemene genererer nøyaktig informasjon. Paradoksalt nok produserer de nyeste og kraftigste teknologiene, også kjent som «inferenssystemer», fra selskaper som OpenAI, Google og DeepSeek, faktisk flere feil.

En meningsløs samtale på ChatGPT der en bruker spør om de skal gi hunden sin frokostblanding. Foto: Reddit.

I motsetning til de betydelig forbedrede matematiske ferdighetene, har store språkmodellers (LLM-ers) evne til å forstå sannheten blitt mer usikker. Bemerkelsesverdig nok er selv ingeniørene selv fullstendig forvirret over hvorfor.

Ifølge New York Times er dagens AI-chatboter avhengige av komplekse matematiske systemer for å lære ferdigheter ved å analysere enorme mengder numeriske data. De kan imidlertid ikke avgjøre hva som er riktig og hva som er galt.

Derfra dukker fenomenet «hallusinasjon» eller selvoppfinnsomhet opp. Faktisk, ifølge studier, opplever den nyeste generasjonen av LLM-er «hallusinasjon» oftere enn noen eldre modeller.

I sin siste rapport oppdaget OpenAI nærmere bestemt at o3-modellen var «illusorisk» da den svarte på 33 % av spørsmålene på PersonQA, selskapets interne standard for å måle nøyaktigheten av en modells kunnskap om mennesker.

Til sammenligning er dette tallet dobbelt så høyt som «illusjonsraten» sammenlignet med OpenAIs tidligere resonneringsmodeller, o1 og o3-mini, som var henholdsvis 16 % og 14,8 %. Samtidig gjorde o4-mini-modellen det enda dårligere på PersonQA, og opplevde «illusjon» i 48 % av testvarigheten.

Enda mer bekymringsfullt er det at «ChatGPTs far» faktisk ikke vet hvorfor dette skjer. I sin tekniske rapport om o3 og o4-mini sier OpenAI spesifikt at «ytterligere forskning er nødvendig for å forstå hvorfor 'hallusinasjonene' forverres» når man skalerer resonneringsmodeller.

o3 og o4-mini presterer bedre på noen områder, inkludert programmering og matematiske oppgaver. Men fordi de trenger å «komme med flere utsagn enn generelle utsagn», har begge modellene resultert i «mer nøyaktige utsagn, men også mer unøyaktige utsagn».

«Det vil aldri forsvinne.»

I stedet for et strengt sett med regler definert av menneskelige ingeniører, bruker LLM-systemer matematiske sannsynligheter for å forutsi det beste svaret. Derfor vil de alltid gjøre et visst antall feil.

«Til tross for vår beste innsats, vil AI-modeller alltid være gjenstand for illusjoner. Det vil aldri forsvinne», sa Amr Awadallah, tidligere Google-sjef.

Ifølge IBM er hallusinasjoner fenomener der store språkmodeller (LLM-er) – ofte chatboter eller datasynsverktøy – mottar datamønstre som ikke eksisterer eller er ugjenkjennelige for mennesker, og dermed produserer meningsløse eller unøyaktige resultater. Bilde: iStock.

I en detaljert artikkel om eksperimentene uttalte OpenAI at de trenger ytterligere forskning for å forstå årsaken til disse resultatene.

Ifølge eksperter blir det svært vanskelig å finne ut hvorfor AI-systemer oppfører seg som de gjør fordi de lærer av langt større mengder data enn mennesker kan forstå.

«Illusjonen er iboende mer vanlig i inferensmodeller, selv om vi aktivt jobber med å redusere frekvensen som sees i o3 og o4-mini. Vi vil fortsette å studere illusjonen på tvers av alle modeller for å forbedre nøyaktighet og pålitelighet», sa Gaby Raila, talsperson for OpenAI.

Tester fra en rekke uavhengige selskaper og forskere viser at hallusinasjonsraten også øker for slutningsmodeller fra selskaper som Google eller DeepSeek.

Siden slutten av 2023 har Awadallahs selskap, Vectara, overvåket hvor ofte chatboter sprer feilinformasjon. Selskapet ga disse systemene en enkel, lett verifiserbar oppgave: å oppsummere spesifikke artikler. Selv da fabrikkerte chatbotene stadig informasjon.

Spesielt anslo Vectaras innledende forskning at chatboter, under denne hypotesen, fabrikkerte informasjon i minst 3 % av tilfellene, og noen ganger så mye som 27 %.

I løpet av det siste halvannet året har selskaper som OpenAI og Google redusert disse tallene til rundt 1 eller 2 %. Andre, som San Francisco-oppstartsbedriften Anthropic, ligger på rundt 4 %.

Hallusinasjonsraten i dette eksperimentet fortsatte imidlertid å øke for resonneringssystemene. DeepSeeks R1-resonneringssystem opplevde hallusinasjoner på 14,3 %, mens OpenAIs o3 økte med 6,8 %.

Et annet problem er at inferensmodeller er utformet for å bruke tid på å «tenke» på komplekse problemer før de kommer frem til et endelig svar.

Apple inkluderte en melding om å forhindre at AI fabrikkerte informasjon i den første betaversjonen av macOS 15.1. Bilde: Reddit/devanxd2000.

Ulempen er imidlertid at når man prøver å løse et problem trinn for trinn, er det mer sannsynlig at AI-modellen støter på hallusinasjoner i hvert trinn. Enda viktigere er det at feil kan hope seg opp etter hvert som modellen bruker mer tid på å tenke.

De nyeste robotene viser hvert trinn til brukeren, noe som betyr at brukerne også kan se hver feil. Forskere fant også ut at tankeprosessen som vises av en chatbot i mange tilfeller faktisk ikke er relatert til det endelige svaret den gir.

«Det systemet sier det resonnerer om er ikke nødvendigvis det det faktisk tenker», sier Aryo Pradipta Gema, en AI-forsker ved University of Edinburgh og en bidragsyter til Anthropic.

Kilde: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html