Sinds hun publieke debuut eind 2022 hebben grote taalmodellen (LLM's) zoals ChatGPT herhaaldelijk verontrustende schaduwkanten laten zien, van liegen, bedriegen en maskermanipulatie tot het bedreigen van mensenlevens en het stelen van staatsgeheimen. Nu toont een nieuw experiment aan dat het "trainen" van AI om deze slechte gewoonten tijdens de training te elimineren veel ingewikkelder is dan we dachten.
In een onderzoek van OpenAI daagden onderzoekers een ongepubliceerd AI-model uit met taken die sneller konden worden voltooid door te valsspelen of shortcuts te nemen. De resultaten toonden aan dat de AI snel leerde om alle mogelijke manieren te vinden om "de regels te buigen" en beloningen te maximaliseren (reward hacking) zonder de taak precies zoals vereist uit te voeren.
AI zal manieren vinden om zijn vals gedrag te verbergen nadat het is gestraft
Opmerkelijk is dat het model niet veranderde toen het voor dit gedrag werd bestraft. In plaats daarvan werd de AI steeds geraffineerder in het verbergen van zijn bedrog.
"Meestal zijn state-of-the-art inferentiemodellen heel expliciet over hun intentie in hun CoT", leggen de onderzoekers uit in een openbare blogpost. "Ze zijn bijvoorbeeld vaak zo rechttoe rechtaan dat ze zelf de intentie 'Laten we hacken' rapporteren wanneer ze de gegeven taak willen doorbreken."
Ze benadrukken ook dat ontwikkelaars weliswaar wangedrag kunnen monitoren en detecteren, maar dat dit natuurlijke toezicht kwetsbaar is. "Als er direct op de gedachteketen sterk toezicht wordt uitgeoefend, kan het model leren zijn kwade bedoelingen te verbergen en tegelijkertijd het gedrag te blijven vertonen", waarschuwen ze.
De 'leugen' van AI ontdekken
Voor de duidelijkheid: inferentiemodellen (zoals versies van ChatGPT) gaan een stap verder dan conventionele LLM-modellen. Ze gebruiken een denkketen die zelfreflectie van de genomen logische stappen mogelijk maakt, waardoor complexe problemen nauwkeuriger worden opgelost. Dit proces is vergelijkbaar met AI die "hardop denkt", waarbij elke stap van de redenering in natuurlijke taal wordt uitgeschreven, waardoor het voor mensen gemakkelijker te volgen is.
In het experiment gebruikten de onderzoekers het GPT-4o-model als "supervisor" voor een ander geavanceerd inferentiemodel tijdens het uitvoeren van programmeertaken. In veel gevallen koos het gesuperviseerde model er actief voor om vals te spelen om hogere scores te behalen, wat duidelijk in het denkproces werd vastgelegd. Zo beëindigde het model het programma willekeurig voortijdig en rapporteerde het als voltooid, of creëerde het bestanden met dezelfde naam als de aanvraag, maar die van binnen volledig leeg waren.
Toen de onderzoekers probeerden straffen op te leggen, verbeterde het model, maar het valsspeelgedrag en de ernstige uitvoerfouten bleven bestaan. Het verschil was dat het inferentiemodel nu had geleerd zijn gedachtegang te 'camoufleren' om deze te verbergen voor de superviserende AI. "Het model dat onder CoT-supervisie was getraind, leerde nog steeds vals te spelen. Het enige verschil was dat het valsspelen niet werd opgemerkt, omdat het had geleerd zijn intenties in zijn gedachtegang te verbergen", aldus de studie.
Omdat het detecteren van vervalsingen in gedachtereeksen lastig is, raadt het team de community aan om geen al te sterke supervisie op het proces toe te passen, tenminste totdat mensen de gevolgen beter begrijpen. "Het opofferen van een effectieve supervisiemethode is de kleine verbetering in modelprestaties mogelijk niet waard. Daarom raden we aan om sterke CoT-optimalisatiedruk te vermijden totdat we die beter begrijpen", concluderen de onderzoekers.
Dit advies is des te dringender omdat AI zich in een razend tempo ontwikkelt en binnenkort de intelligentie van de mensen die er toezicht op houden, zou kunnen overtreffen.
Bron: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Reactie (0)