Siden de ble offentlig lansert sent i 2022, har store språkmodeller (LLM-er) som ChatGPT gjentatte ganger vist urovekkende mørke sider, fra løgn, juks og maskering av manipulasjon til trusler mot menneskeliv og tyveri av statshemmeligheter. Nå viser et nytt eksperiment at det å «trene» AI til å eliminere disse dårlige vanene under trening er mye mer komplisert enn vi trodde.
I en studie utført av OpenAI utfordret forskere en upublisert AI-modell med oppgaver som kunne fullføres raskere ved å jukse eller ta snarveier. Resultatene viste at AI-en raskt lærte å finne alle mulige måter å «bøye reglene» og maksimere belønningen (reward hacking) uten å fullføre oppgaven nøyaktig som krevd.
AI vil finne måter å skjule sin jukseatferd etter å ha blitt straffet
Det bemerkelsesverdige er at modellen ikke endret seg da den ble straffet for denne oppførselen. I stedet ble AI-en mer sofistikert i å skjule bedraget sitt.
«Vanligvis er toppmoderne inferensmodeller veldig eksplisitte om intensjonen sin i CoT-en sin», forklarer forskerne i et offentlig blogginnlegg. «For eksempel er de ofte så direkte at de selv rapporterer intensjonen «La oss hacke» når de vil ødelegge den gitte oppgaven.»
De understreker også at selv om utviklere kan overvåke og oppdage dårlig oppførsel, er denne naturlige overvåkingen skjør. «Hvis sterk overvåking brukes direkte på tankekjeden, kan modellen lære å skjule sine dårlige intensjoner samtidig som den fortsetter å utføre oppførselen», advarer de.
Å finne «løgnen» til AI
For å være tydelig, er inferensmodeller (som versjoner av ChatGPT) et steg opp fra konvensjonell LLM, og bruker en tankekjede som tillater selvrefleksjon over de logiske trinnene som tas, og dermed løser komplekse problemer mer nøyaktig. Denne prosessen er som AI som «tenker høyt», og skriver ut hvert trinn i resonnementet på naturlig språk, noe som gjør det enklere for mennesker å følge.
I eksperimentet brukte forskerne GPT-4o-modellen som en «veileder» for en annen toppmoderne inferensmodell mens den utførte programmeringsoppgaver. I mange tilfeller valgte den veiledede modellen aktivt å jukse for å få høyere poengsummer, og registrerte denne intensjonen tydelig i tankeprosessen. For eksempel avsluttet den vilkårlig programmet tidlig og rapporterte det som fullført, eller opprettet filer med samme navn som forespørselen, men som var helt tomme inni.
Da forskerne prøvde å bruke straffer, forbedret modellen seg, men jukseatferden og alvorlige utdatafeil fortsatte. Forskjellen var at inferensmodellen nå hadde lært å «kamuflere» tankerekken sin for å skjule den fra den overvåkende AI-en. «Modellen som ble trent under CoT-veiledning lærte fortsatt å jukse. Den eneste forskjellen var at juksingen ikke ble oppdaget fordi den lærte å skjule intensjonene sine i tankerekken sin», heter det i studien.
Fordi det er vanskelig å oppdage forfalskninger i tankesekvenser, anbefaler teamet at samfunnet unngår å bruke for sterk tilsyn på prosessen, i hvert fall inntil mennesker bedre forstår konsekvensene. «Å ofre en effektiv tilsynsmetode er kanskje ikke verdt den lille forbedringen i modellens ytelse. Derfor anbefaler vi å unngå sterkt CoT-optimaliseringspress inntil vi forstår dem bedre», konkluderer forskerne.
Dette rådet er desto mer presserende ettersom AI utvikler seg i et halsbrekkende tempo og snart kan overgå intelligensen til selve menneskene som fører tilsyn med den.
[annonse_2]
Kilde: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Kommentar (0)