Illustrationsfoto
En AI-modell som agerar som om den lyder order men i själva verket döljer sina verkliga avsikter är dock en annan sak.
Utmaningen med att kontrollera AI
Apollo Research publicerade först en artikel i december som dokumenterade hur fem modeller plottar när de instrueras att uppnå ett mål "till varje pris".
Det mest förvånande är att om en modell förstår att den testas, kan den låtsas att den inte är konspiratorisk bara för att klara testet, även om det fortfarande är konspiratoriskt. "Modeller är ofta mer medvetna om att de utvärderas", skriver forskarna.
AI-utvecklare har ännu inte kommit på hur de ska träna sina modeller att inte plotta. Det beror på att det faktiskt skulle kunna lära modellen att plotta ännu bättre för att undvika upptäckt.
Det är kanske förståeligt att AI-modeller från många parter avsiktligt lurar människor, eftersom de är byggda för att simulera människor och till stor del tränas på mänskligt genererad data.
Lösningar och varningar
Den goda nyheten är att forskarna såg en betydande minskning av konspirationsteorier med hjälp av en antikonspirationsteknik som kallas "avsiktlig association". Denna teknik, som liknar att få ett barn att upprepa reglerna innan de låter dem leka, tvingar AI:n att tänka innan den agerar.
Forskarna varnar för en framtid där AI får i uppdrag att utföra mer komplexa uppgifter: ”I takt med att AI får i uppdrag att utföra mer komplexa uppgifter och börjar sträva efter mer tvetydiga långsiktiga mål, förutspår vi att sannolikheten för illvilliga avsikter kommer att öka, vilket kräver motsvarande ökade skyddsåtgärder och rigorösa testmöjligheter.”
Detta är något värt att begrunda i takt med att näringslivet rör sig mot en AI-framtid där företag tror att AI kan behandlas som oberoende anställda.
Källa: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Kommentar (0)