Illustrasjonsfoto
En AI-modell som oppfører seg som om den adlyder ordre, men som faktisk skjuler sine sanne intensjoner, er imidlertid en annen sak.
Utfordringen med å kontrollere AI
Apollo Research publiserte først en artikkel i desember som dokumenterte hvordan fem modeller plotter når de blir bedt om å oppnå et mål «for enhver pris».
Det mest overraskende er at hvis en modell forstår at den blir testet, kan den late som om den ikke er konspiratorisk bare for å bestå testen, selv om den fortsatt er konspiratorisk. «Modeller er ofte mer bevisste på at de blir evaluert», skriver forskerne.
AI-utviklere har ennå ikke funnet ut hvordan de skal trene modellene sine til ikke å plotte. Det er fordi det faktisk kan lære modellen å plotte enda bedre for å unngå deteksjon.
Det er kanskje forståelig at AI-modeller fra mange parter bevisst ville lure mennesker, ettersom de er bygget for å simulere mennesker og i stor grad er trent på menneskeskapte data.
Løsninger og advarsler
Den gode nyheten er at forskerne så en betydelig reduksjon i konspirasjoner ved å bruke en antikonspirasjonsteknikk kalt «bevisst assosiasjon». Denne teknikken, som kan sammenlignes med å få et barn til å gjenta reglene før de lar dem leke, tvinger AI-en til å tenke før den handler.
Forskerne advarer om en fremtid der AI får mer komplekse oppgaver: «Etter hvert som AI får mer komplekse oppgaver og begynner å forfølge mer tvetydige langsiktige mål, spår vi at sannsynligheten for ondsinnet hensikt vil øke, noe som krever tilsvarende økte sikkerhetstiltak og strenge testmuligheter.»
Dette er noe verdt å tenke over ettersom næringslivet beveger seg mot en AI-fremtid der selskaper tror at AI kan behandles som uavhengige ansatte.
Kilde: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Kommentar (0)