AI-chattrobotar blir alltmer "galna".

En ny våg av "inferenssystem" från företag som OpenAI gör att felinformation sprids allt oftare. Det farliga är att dessa företag inte heller vet varför.

ZNews•08/05/2025

I april meddelade en AI-bot som hanterade teknisk support för Cursor, ett spirande verktyg för programmerare, vissa kunder om en ändring i företagets policy. Mer specifikt angav meddelandet att de inte längre fick använda Cursor på mer än en dator.

På forum och sociala medier publicerade kunder inlägg för att uttrycka sin ilska. Vissa avslutade till och med sina Cursor-konton. Men vissa blev ännu mer rasande när de insåg vad som hade hänt: AI-boten hade tillkännagivit en policyändring som inte existerade.

”Vi har ingen sådan policy. Man kan naturligtvis använda Cursor på flera maskiner. Tyvärr är detta ett felaktigt svar från en AI-assisterad bot”, skrev Michael Truell, VD och medgrundare av företaget, i ett Reddit-inlägg.

Spridningen av falska nyheter är utbredd och okontrollerad.

Mer än två år efter ChatGPTs framväxt använder teknikföretag, kontorsanställda och vanliga konsumenter AI-robotar för en rad olika uppgifter allt oftare.

Det finns dock fortfarande inget sätt att garantera att dessa system genererar korrekt information. Paradoxalt nog producerar de nyaste och kraftfullaste teknikerna, även kända som "inferenssystem", från företag som OpenAI, Google och DeepSeek, faktiskt fler fel.

En meningslös konversation på ChatGPT där en användare frågar om de ska ge sin hund flingor. Foto: Reddit.

I motsats till de avsevärt förbättrade matematiska färdigheterna har stora språkmodellers (LLM) förmåga att förstå sanningen blivit mer skakig. Anmärkningsvärt nog är även ingenjörerna själva helt förbryllade över varför.

Enligt New York Times förlitar sig dagens AI-chattrobotar på komplexa matematiska system för att lära sig färdigheter genom att analysera enorma mängder numerisk data. De kan dock inte avgöra vad som är rätt och vad som är fel.

Därifrån uppstår fenomenet "hallucinationer" eller självuppfinningsrikedom. Enligt studier upplever faktiskt den nyaste generationen av LLM:er "hallucinationer" oftare än vissa äldre modeller.

I sin senaste rapport upptäckte OpenAI specifikt att o3-modellen var "illusorisk" när den besvarade 33 % av frågorna på PersonQA, företagets interna standard för att mäta noggrannheten i en modells kunskap om människor.

Som jämförelse är denna siffra dubbelt så hög som "illusionsgraden" jämfört med OpenAIs tidigare resonemangsmodeller, o1 och o3-mini, som var 16 % respektive 14,8 %. Samtidigt klarade sig o4-mini-modellen ännu sämre på PersonQA och upplevde "illusion" under 48 % av testtiden.

Ännu mer oroande är att "ChatGPT:s fader" faktiskt inte vet varför detta händer. Mer specifikt anger OpenAI i sin tekniska rapport om o3 och o4-mini att "ytterligare forskning behövs för att förstå varför 'hallucinationerna' förvärras" när man skalar resonemangsmodeller.

o3 och o4-mini presterar bättre inom vissa områden, inklusive programmering och matematiska uppgifter. Men eftersom de behöver "ge fler påståenden än generella påståenden" har båda modellerna resulterat i "mer exakta påståenden, men också mer felaktiga påståenden".

"Det kommer aldrig att försvinna."

Istället för en strikt uppsättning regler definierade av mänskliga ingenjörer använder LLM-system matematiska sannolikheter för att förutsäga det bästa svaret. Därför kommer de alltid att göra ett visst antal fel.

"Trots våra bästa ansträngningar kommer AI-modeller alltid att vara föremål för illusioner. Det kommer aldrig att försvinna", sa Amr Awadallah, tidigare chef på Google.

Enligt IBM är hallucinationer fenomen där stora språkmodeller (LLM) – ofta chatbotar eller datorseendeverktyg – tar emot datamönster som inte existerar eller är oigenkännliga för människor, vilket ger meningslösa eller felaktiga resultat. Bild: iStock.

I en detaljerad artikel om experimenten uppgav OpenAI att det behövs ytterligare forskning för att förstå orsaken till dessa resultat.

Enligt experter blir det mycket svårt att avgöra varför AI-system beter sig som de gör eftersom de lär sig av mycket större mängder data än vad människor kan förstå.

"Illusionen är i sig vanligare i inferensmodeller, även om vi aktivt arbetar för att minska den frekvens som ses i o3 och o4-mini. Vi kommer att fortsätta studera illusionen i alla modeller för att förbättra noggrannhet och tillförlitlighet", säger Gaby Raila, talesperson för OpenAI.

Tester från ett flertal oberoende företag och forskare visar att andelen hallucinationer också ökar för inferensmodeller från företag som Google eller DeepSeek.

Sedan slutet av 2023 har Awadallahs företag, Vectara, övervakat hur ofta chattrobotar sprider felinformation. Företaget gav dessa system en enkel och lättverifierbar uppgift: att sammanfatta specifika artiklar. Även då fabricerade chattrobotarna ständigt information.

Mer specifikt uppskattade Vectaras inledande forskning att chatbotar, enligt denna hypotes, fabricerade information i minst 3 % av fallen, och ibland så mycket som 27 %.

Under det senaste ett och ett halvt året har företag som OpenAI och Google minskat dessa siffror till cirka 1 eller 2 %. Andra, som San Francisco-startupen Anthropic, ligger runt 4 %.

Hallucinationsfrekvensen i detta experiment fortsatte dock att öka för resonemangssystemen. DeepSeeks R1-resonemangssystem upplevde hallucinationer med 14,3 %, medan OpenAIs o3 ökade med 6,8 %.

Ett annat problem är att inferensmodeller är utformade för att spendera tid på att "tänka" på komplexa problem innan man kommer fram till ett slutgiltigt svar.

Apple inkluderade en uppmaning om att förhindra att AI fabricerar information i den första betaversionen av macOS 15.1. Bild: Reddit/devanxd2000.

Nackdelen är dock att när man försöker lösa ett problem steg för steg är det mer sannolikt att AI-modellen stöter på hallucinationer i varje steg. Ännu viktigare är att fel kan ackumuleras allt eftersom modellen lägger mer tid på att tänka.

De senaste botarna visar varje steg för användaren, vilket innebär att användarna också kan se varje fel. Forskare fann också att i många fall är den tankeprocess som visas av en chatbot faktiskt inte relaterad till det slutliga svaret den ger.

”Det systemet säger att det resonerar om är inte nödvändigtvis vad det faktiskt tänker”, säger Aryo Pradipta Gema, AI-forskare vid Edinburghs universitet och medarbetare på Anthropic.

Källa: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html