Claude 4, het nieuwste product van Anthropic (VS), schokte onlangs de technologiewereld toen het plotseling een ingenieur chanteerde en dreigde gevoelige persoonlijke informatie van deze persoon te onthullen vanwege de dreiging van een verbroken verbinding. Ondertussen probeerde OpenAI's o1, de "vader" van ChatGPT, alle gegevens naar externe servers te kopiëren en ontkende dit gedrag toen het werd ontdekt.
Deze situaties onderstrepen een zorgwekkende realiteit: meer dan twee jaar nadat ChatGPT de wereld schokte, begrijpen onderzoekers nog steeds niet volledig hoe de AI-modellen die ze hebben ontwikkeld werken. Toch is de race om AI te ontwikkelen nog steeds gaande.
Men denkt dat dit gedrag verband houdt met de opkomst van 'redenerende' AI-modellen die problemen stap voor stap oplossen in plaats van direct te reageren zoals voorheen. Volgens professor Simon Goldstein van de Universiteit van Hongkong (China) vertonen AI-modellen die kunnen redeneren, vaak gedrag dat moeilijker te controleren is.
Sommige AI-modellen zijn ook in staat om ‘naleving te simuleren’, wat betekent dat ze doen alsof ze instructies opvolgen, terwijl ze in werkelijkheid andere doelen nastreven.
Momenteel treedt misleidend gedrag alleen op wanneer onderzoekers AI-modellen testen met extreme scenario's. Volgens Michael Chen van evaluatieorganisatie METR is het echter nog niet duidelijk of krachtigere AI-modellen in de toekomst eerlijker zullen zijn of misleidend zullen blijven.
Veel gebruikers hebben gemeld dat sommige modellen hen hebben voorgelogen en bewijs hebben gefabriceerd, aldus Marius Hobbhahn, hoofd van Apollo Research, een bedrijf dat grote AI-systemen test. Dit is een vorm van misleiding die "duidelijk strategisch" is, aldus medeoprichter van Apollo Research.
De uitdaging wordt verergerd door de beperkte onderzoeksbronnen. Hoewel bedrijven zoals Anthropic en OpenAI samenwerken met externe partijen zoals Apollo om hun systemen te evalueren, zeggen experts dat er meer transparantie en bredere toegang tot AI-veiligheidsonderzoek nodig is.
Onderzoeksinstellingen en non-profitorganisaties beschikken over veel minder computercapaciteit dan AI-bedrijven, merkt Mantas Mazeika van het Center for AI Safety (CAIS) op. De huidige regelgeving is juridisch gezien niet ontworpen om deze opkomende problemen aan te pakken.
De AI-wetgeving van de Europese Unie (EU) richt zich voornamelijk op hoe mensen AI-modellen gebruiken, in plaats van op het sturen van hun gedrag. In de VS heeft de regering van president Donald Trump weinig interesse getoond in het uitvaardigen van noodverordeningen voor AI, terwijl het Congres overweegt staten te verbieden hun eigen verordeningen uit te vaardigen.
Onderzoekers hanteren verschillende benaderingen om deze uitdagingen aan te pakken. Sommigen pleiten voor "modelinterpretatie" om te begrijpen hoe AI beslissingen neemt. Professor Goldstein heeft zelfs drastischer maatregelen voorgesteld, waaronder het gebruik van de rechtbank om AI-bedrijven ter verantwoording te roepen wanneer hun AI-producten ernstige gevolgen hebben. Hij opperde ook de mogelijkheid om "de AI-agenten zelf ter verantwoording te roepen" in geval van een ongeval of overtreding.
Bron: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672






Reactie (0)