AI-chatbots worden steeds "gekker".

Een nieuwe golf van 'inferentie'-systemen van bedrijven zoals OpenAI zorgt ervoor dat desinformatie steeds vaker voorkomt. Het gevaarlijke is dat deze bedrijven zelf ook niet weten waarom.

ZNews•08/05/2025

In april bracht een AI-bot die de technische ondersteuning voor Cursor, een snelgroeiende tool voor programmeurs, verzorgde, sommige klanten op de hoogte van een wijziging in het bedrijfsbeleid. Concreet vermeldde de melding dat ze Cursor niet langer op meer dan één computer mochten gebruiken.

Op forums en sociale media uitten klanten hun woede. Sommigen zegden zelfs hun Cursor-account op. Anderen waren echter nog woedender toen ze beseften wat er was gebeurd: de AI-bot had een beleidswijziging aangekondigd die niet bestond.

"Wij hebben zo'n beleid niet. Je kunt Cursor natuurlijk op meerdere computers gebruiken. Helaas is dit een onjuist antwoord van een door AI ondersteunde bot," schreef Michael Truell, CEO en medeoprichter van het bedrijf, in een Reddit-bericht.

De verspreiding van nepnieuws is ongebreideld en ongecontroleerd.

Ruim twee jaar na de introductie van ChatGPT maken technologiebedrijven, kantoorpersoneel en gewone consumenten steeds vaker gebruik van AI-bots voor uiteenlopende taken.

Er is echter nog steeds geen garantie dat deze systemen accurate informatie genereren. Paradoxaal genoeg produceren de nieuwste en krachtigste technologieën, ook wel "inferentiesystemen" genoemd, van bedrijven als OpenAI, Google en DeepSeek, juist meer fouten.

Een absurd gesprek op ChatGPT waarin een gebruiker vraagt of hij zijn hond ontbijtgranen moet geven. Foto: Reddit.

In tegenstelling tot de aanzienlijk verbeterde wiskundige vaardigheden, is het vermogen van grote taalmodellen (LLM's) om de waarheid te vatten wankeler geworden. Opmerkelijk genoeg zijn zelfs de ingenieurs zelf volkomen verbijsterd over de oorzaak hiervan.

Volgens de New York Times maken de huidige AI-chatbots gebruik van complexe wiskundige systemen om vaardigheden te leren door enorme hoeveelheden numerieke gegevens te analyseren. Ze kunnen echter niet bepalen wat goed en wat fout is.

Daaruit ontstaat het fenomeen 'hallucinatie' of zelfverzonnenheid. Volgens studies ervaart de nieuwste generatie LLM's (Law Life Managers) zelfs vaker 'hallucinaties' dan sommige oudere modellen.

In het meest recente rapport ontdekte OpenAI met name dat het o3-model "illusoir" was bij het beantwoorden van 33% van de vragen op PersonQA, de interne standaard van het bedrijf voor het meten van de nauwkeurigheid van de kennis die een model over mensen heeft.

Ter vergelijking: dit cijfer is het dubbele van het percentage "illusies" van OpenAI's eerdere redeneermodellen, o1 en o3-mini, die respectievelijk 16% en 14,8% bedroegen. Het o4-mini-model presteerde zelfs nog slechter op PersonQA, waar het gedurende 48% van de testduur een "illusie" vertoonde.

Nog zorgwekkender is dat de "vader van ChatGPT" eigenlijk niet weet waarom dit gebeurt. In het technische rapport over o3 en o4-mini stelt OpenAI namelijk dat "verder onderzoek nodig is om te begrijpen waarom de 'hallucinaties' verergeren" bij het opschalen van redeneermodellen.

De modellen o3 en o4-mini presteren beter op sommige gebieden, waaronder programmeren en wiskundige taken. Omdat ze echter "meer dan alleen algemene beweringen" moeten doen, resulteren beide modellen in "nauwkeurigere beweringen, maar ook in onnauwkeurigere beweringen".

"Dat zal nooit verdwijnen."

In plaats van een strikte set regels die door menselijke ingenieurs zijn vastgesteld, gebruiken LLM-systemen wiskundige waarschijnlijkheden om de beste respons te voorspellen. Daarom zullen ze altijd een bepaald aantal fouten maken.

"Ondanks al onze inspanningen zullen AI-modellen altijd onderhevig blijven aan illusies. Dat zal nooit verdwijnen," aldus Amr Awadallah, voormalig directeur bij Google.

Volgens IBM zijn hallucinaties verschijnselen waarbij grote taalmodellen (LLM's) – vaak chatbots of computervisietools – datapatronen ontvangen die niet bestaan of onherkenbaar zijn voor mensen, waardoor betekenisloze of onnauwkeurige resultaten ontstaan. Afbeelding: iStock.

In een gedetailleerd rapport over de experimenten stelde OpenAI dat verder onderzoek nodig is om de oorzaak van deze resultaten te achterhalen.

Volgens experts is het, omdat AI-systemen leren van veel grotere hoeveelheden data dan mensen kunnen begrijpen, erg moeilijk om te bepalen waarom ze zich op een bepaalde manier gedragen.

"De illusie komt inherent vaker voor in inferentiemodellen, hoewel we actief werken aan het verminderen van het aantal gevallen dat we zien in o3 en o4-mini. We zullen de illusie in alle modellen blijven bestuderen om de nauwkeurigheid en betrouwbaarheid te verbeteren", aldus Gaby Raila, woordvoerder van OpenAI.

Tests van tal van onafhankelijke bedrijven en onderzoekers tonen aan dat het aantal hallucinaties ook toeneemt bij inferentiemodellen van bedrijven zoals Google of DeepSeek.

Sinds eind 2023 monitort Awadallahs bedrijf, Vectara, de frequentie waarmee chatbots desinformatie verspreiden. Het bedrijf gaf deze systemen een simpele, gemakkelijk te controleren taak: het samenvatten van specifieke artikelen. Zelfs toen verzonnen de chatbots consequent onjuiste informatie.

Concreet schatte Vectara in haar eerste onderzoek dat chatbots, onder deze hypothese, in minstens 3% van de gevallen, en soms zelfs in 27% van de gevallen, onjuiste informatie verzonnen.

In de afgelopen anderhalf jaar hebben bedrijven als OpenAI en Google die percentages teruggebracht tot ongeveer 1 of 2%. Andere, zoals de startup Anthropic uit San Francisco, schommelen rond de 4%.

De frequentie van hallucinaties in dit experiment bleef echter toenemen bij de redeneersystemen. Bij DeepSeek's R1-redeneersysteem trad een toename van 14,3% op in de gevallen van hallucinaties, terwijl dit bij OpenAI's o3 met 6,8% toenam.

Een ander probleem is dat inferentiemodellen zo zijn ontworpen dat ze tijd besteden aan het "nadenken" over complexe problemen voordat ze tot een definitief antwoord komen.

Apple heeft in de eerste bètaversie van macOS 15.1 een melding toegevoegd om te voorkomen dat AI informatie verzint. Afbeelding: Reddit/devanxd2000.

Het nadeel is echter dat wanneer het AI-model een probleem stap voor stap probeert op te lossen, de kans groter is dat het bij elke stap hallucinaties ervaart. Belangrijker nog, fouten kunnen zich ophopen naarmate het model meer tijd besteedt aan nadenken.

De nieuwste chatbots tonen elke stap aan de gebruiker, waardoor gebruikers ook elke fout kunnen zien. Onderzoekers ontdekten bovendien dat het denkproces dat een chatbot laat zien in veel gevallen niets te maken heeft met het uiteindelijke antwoord dat de bot geeft.

"Wat het systeem zegt te redeneren, is niet per se wat het daadwerkelijk denkt," zegt Aryo Pradipta Gema, AI-onderzoeker aan de Universiteit van Edinburgh en medewerker van Anthropic.

Bron: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html