De twee nieuw gelanceerde ChatGPT-modellen bevatten een hogere frequentie van gefabriceerde informatie dan de vorige generatie. Foto: Fireflies . |
Slechts twee dagen na de aankondiging van GPT-4.1 lanceerde OpenAI officieel niet één, maar twee nieuwe modellen, genaamd o3 en o4-mini. Beide modellen tonen superieure redeneermogelijkheden met vele krachtige verbeteringen.
Volgens TechCrunch hebben deze twee nieuwe modellen echter nog steeds last van hallucinaties of zelfverzonnen verhalen. Sterker nog, ze vertonen meer hallucinaties dan sommige oudere modellen van OpenAI.
Volgens IBM zijn hallucinaties verschijnselen waarbij grote taalmodellen (LLM's) – vaak chatbots of computervisietools – gegevenspatronen ontvangen die niet bestaan of onherkenbaar zijn voor mensen, waardoor betekenisloze of onnauwkeurige resultaten ontstaan.
Met andere woorden, gebruikers verwachten vaak dat AI nauwkeurige resultaten produceert op basis van getrainde data. In sommige gevallen zijn de resultaten van de AI echter niet gebaseerd op nauwkeurige data, waardoor een "vals" antwoord ontstaat.
In het meest recente rapport ontdekte OpenAI dat o3 in 33% van de gevallen "illusoir" was bij het beantwoorden van vragen op PersonQA, de interne standaard van het bedrijf voor het meten van de nauwkeurigheid van de kennis van een model over mensen.
Ter vergelijking: dit cijfer is het dubbele van het percentage "illusies" bij de eerdere redeneermodellen van OpenAI, o1 en o3-mini, die respectievelijk 16% en 14,8% bedroegen. Het O4-mini-model presteerde zelfs nog slechter op PersonQA, waar het gedurende 48% van de testduur "illusies" vertoonde.
Nog zorgwekkender is dat de "vader van ChatGPT" eigenlijk niet weet waarom dit gebeurt. In het technische rapport over o3 en o4-mini stelt OpenAI namelijk dat "verder onderzoek nodig is om te begrijpen waarom de 'hallucinaties' verergeren" bij het opschalen van redeneermodellen.
O3 en o4-mini presteren beter op sommige gebieden, waaronder programmeren en wiskundige taken. Omdat ze echter "meer dan alleen algemene beweringen" moeten doen, hebben beide modellen geleid tot "nauwkeurigere beweringen, maar ook tot onnauwkeurigere beweringen".
Bron: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html






Reactie (0)