Illustratiefoto
Maar een AI-model dat doet alsof het bevelen opvolgt, maar in werkelijkheid zijn ware bedoelingen verbergt, is een ander verhaal.
De uitdaging van het beheersen van AI
Apollo Research publiceerde in december voor het eerst een artikel waarin werd beschreven hoe vijf modellen plannen wanneer ze de opdracht kregen om een doel ‘tegen elke prijs’ te bereiken.
Het meest verrassende is dat als een model begrijpt dat het getest wordt, het kan doen alsof er geen sprake is van samenzwering, alleen maar om de test te doorstaan, zelfs als het nog steeds een samenzwering is. "Modellen zijn zich er vaak meer van bewust dat ze geëvalueerd worden", schrijven de onderzoekers.
AI-ontwikkelaars moeten er nog achter komen hoe ze hun modellen kunnen trainen om niet te plotten. Dit zou het model namelijk kunnen leren om nog beter te plotten en zo detectie te voorkomen.
Het is wellicht begrijpelijk dat AI-modellen van veel partijen mensen opzettelijk misleiden, aangezien ze zijn gebouwd om mensen te simuleren en grotendeels zijn getraind met door mensen gegenereerde data.
Oplossingen en waarschuwingen
Het goede nieuws is dat de onderzoekers een significante afname van complottheorieën zagen met behulp van een anti-complottechniek genaamd 'opzettelijke associatie'. Deze techniek, vergelijkbaar met het laten herhalen van de regels door een kind voordat het mag spelen, dwingt de AI om na te denken voordat het handelt.
De onderzoekers waarschuwen voor een toekomst waarin AI met complexere taken wordt belast: "Naarmate AI met complexere taken wordt belast en steeds onduidelijkere langetermijndoelen nastreeft, voorspellen we dat de kans op kwaadaardige bedoelingen zal toenemen, wat overeenkomstige strengere waarborgen en rigoureuze testmogelijkheden vereist."
Het is de moeite waard om hierover na te denken, nu de zakenwereld zich ontwikkelt naar een AI-toekomst waarin bedrijven geloven dat AI als zelfstandige werknemers kan worden behandeld.
Bron: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Reactie (0)