
In april bracht een AI-bot die technische ondersteuning biedt voor Cursor, een opkomende tool voor programmeurs, enkele klanten op de hoogte van een wijziging in het bedrijfsbeleid. De bot gaf specifiek aan dat ze Cursor niet langer op meer dan één computer mochten gebruiken.
Klanten uitten hun woede op forums en sociale media. Sommigen sloten zelfs hun Cursor-account op. Maar sommigen waren nog bozer toen ze beseften wat er gebeurd was: de AI-bot had een beleidswijziging gemeld die er niet was.
"Wij hebben geen dergelijk beleid. Je kunt Cursor natuurlijk op meerdere apparaten gebruiken. Helaas was dit een onjuist antwoord van een AI-gestuurde bot", schreef Michael Truell, CEO en medeoprichter van het bedrijf, in een Reddit-bericht.
Nepinformatie is buitensporig.
Meer dan twee jaar na de lancering van ChatGPT gebruiken technologiebedrijven, kantoorpersoneel en consumenten steeds vaker AI-bots voor uiteenlopende taken.
Toch is er geen manier om te garanderen dat deze systemen accurate informatie produceren. Paradoxaal genoeg maken de krachtigste nieuwe technologieën, bekend als "inferentiesystemen" van bedrijven zoals OpenAI, Google en DeepSeek, juist meer fouten.
![]() |
Onzinnige ChatGPT-conversatie waarin gebruiker vraagt of honden granen mogen eten. Foto: Reddit. |
Hoewel wiskundige vaardigheden drastisch zijn verbeterd, is het vermogen van grote taalmodellen (LLM's) om de waarheid vast te leggen, wankeler geworden. Verrassend genoeg weten zelfs ingenieurs zelf niet precies waarom.
Volgens de New York Times vertrouwen de huidige AI-chatbots op complexe wiskundige systemen om vaardigheden te leren door enorme hoeveelheden digitale data te analyseren. Ze kunnen echter niet bepalen wat goed en wat fout is.
Vanaf dat moment treedt er een toestand van "hallucinatie" of zelffabricatie van informatie op. Volgens onderzoek "hallucineren" de nieuwste generatie LLM's zelfs meer dan sommige oudere modellen.
In het laatste rapport van OpenAI werd specifiek ontdekt dat het o3-model "hallucineerde" bij het beantwoorden van 33% van de vragen op PersonQA, de interne standaard van het bedrijf voor het meten van de nauwkeurigheid van de kennis van het model over mensen.
Ter vergelijking: dit is twee keer zo hoog als het "hallucinatie"-percentage van OpenAI's eerdere redeneermodellen, o1 en o3-mini, die respectievelijk 16% en 14,8% van de tijd vertoonden. Het o4-mini-model presteerde daarentegen nog slechter op PersonQA, met 48% van de gevallen "hallucinaties".
Zorgelijker is dat de "vader van ChatGPT" eigenlijk niet weet waarom dit gebeurt. Meer specifiek schrijft OpenAI in het technische rapport over o3 en o4-mini dat "verder onderzoek nodig is om te begrijpen waarom de "illusie" erger wordt" naarmate de redeneermodellen groter worden.
De o3 en o4-mini presteerden beter op sommige gebieden, waaronder programmeer- en wiskundetaken. Omdat ze echter "meer uitspraken dan generalisaties" moesten doen, hadden beide modellen last van het produceren van "meer correcte uitspraken, maar ook meer onjuiste".
"Dat gaat nooit meer weg"
In plaats van een strikte reeks regels die door menselijke ingenieurs zijn bepaald, gebruiken LLM-systemen wiskundige waarschijnlijkheid om het beste antwoord te raden. Daardoor maken ze altijd een zekere fout.
"Ondanks onze beste inspanningen zullen AI-modellen altijd waanideeën blijven. Dat zal nooit verdwijnen", aldus Amr Awadallah, voormalig Google-manager.
![]() |
Volgens IBM zijn hallucinaties een fenomeen waarbij grote taalmodellen (LLM's) – meestal chatbots of computer vision tools – datapatronen ontvangen die niet bestaan of onherkenbaar zijn voor mensen, wat leidt tot betekenisloze of misleidende resultaten. Foto: iStock. |
In een uitgebreid artikel over de experimenten stelt OpenAI dat er meer onderzoek nodig is om de oorzaken van deze resultaten te begrijpen.
Volgens deskundigen kan het lastig zijn om te bepalen waarom AI-systemen op een bepaalde manier gedrag vertonen, omdat ze van veel grotere hoeveelheden data leren dan mensen kunnen begrijpen.
"Illusies komen inherent vaker voor in inferentiemodellen, hoewel we actief werken aan het verminderen van de incidentie ervan in o3 en o4-mini. We zullen blijven werken aan illusies in alle modellen om de nauwkeurigheid en betrouwbaarheid te verbeteren", aldus Gaby Raila, woordvoerder van OpenAI.
Uit testen van meerdere onafhankelijke bedrijven en onderzoekers blijkt dat het aantal hallucinaties ook toeneemt bij inferentiemodellen van bedrijven als Google en DeepSeek.
Sinds eind 2023 houdt Awadallahs bedrijf, Vectara, bij hoe vaak chatbots informatie verkeerd weergeven. Het bedrijf vroeg de systemen om een eenvoudige, gemakkelijk te verifiëren taak uit te voeren: het samenvatten van specifieke nieuwsartikelen. Zelfs toen bleven de chatbots informatie verzinnen.
Uit het eerste onderzoek van Vectara bleek dat chatbots in dit scenario minimaal 3% van de gevallen, en soms zelfs 27%, informatie verzonnen.
In de afgelopen anderhalf jaar hebben bedrijven als OpenAI en Google die cijfers teruggebracht tot ongeveer 1 à 2%. Andere, zoals de startup Anthropic uit San Francisco, schommelen rond de 4%.
Het hallucinatiepercentage in deze test bleef echter toenemen voor de inferentiesystemen. De frequentie van hallucinaties nam met 14,3% toe voor DeepSeeks R1-inferentiesysteem, terwijl de o3-waarde van OpenAI met 6,8% toenam.
Een ander probleem is dat inferentiemodellen zo zijn ontworpen dat ze tijd besteden aan het 'nadenken' over complexe problemen, voordat ze met een definitief antwoord komen.
![]() |
Apple heeft in de eerste testversie van macOS 15.1 een prompt ingevoegd om te voorkomen dat AI informatie verzint. Foto: Reddit/devanxd2000. |
Het nadeel is echter dat naarmate het AI-model het probleem stap voor stap probeert op te lossen, het bij elke stap vatbaarder wordt voor hallucinaties. En belangrijker nog, fouten kunnen zich opstapelen naarmate het model meer tijd besteedt aan nadenken.
De nieuwste bots laten gebruikers elke stap zien, wat betekent dat gebruikers ook elke fout kunnen zien. Onderzoekers ontdekten ook dat het denkproces van een chatbot in veel gevallen niets te maken heeft met het uiteindelijke antwoord dat hij geeft.
"Wat het systeem zegt af te leiden, is niet per se wat het daadwerkelijk denkt", zegt Aryo Pradipta Gema, AI-onderzoeker aan de Universiteit van Edinburgh en medewerker van Anthropic.
Bron: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Reactie (0)