Kunstig intelligens: Advarsel om bekymringsfull atferd fra AI

Bildetekst — Logoene til OpenAI og ChatGPT på en skjerm i Toulouse, Frankrike. Foto: AFP/TTXVN

Claude 4, det nyeste produktet fra Anthropic (USA), sjokkerte nylig teknologiverdenen da de plutselig utpresset en ingeniør og truet med å avsløre sensitiv personlig informasjon om denne personen på grunn av trusselen om frakobling. I mellomtiden prøvde OpenAIs o1, «faren» til ChatGPT, å kopiere alle data til eksterne servere og benektet denne oppførselen da den ble oppdaget.

Disse situasjonene fremhever en bekymringsfull realitet: mer enn to år etter at ChatGPT sjokkerte verden , forstår forskere fortsatt ikke helt hvordan AI-modellene de skapte fungerer. Likevel er kappløpet om å utvikle AI fortsatt i full gang.

Denne atferden antas å være relatert til fremveksten av «resonnerende» AI-modeller som løser problemer trinn for trinn i stedet for å reagere umiddelbart som før. Ifølge professor Simon Goldstein ved University of Hong Kong (Kina) har AI-modeller som er i stand til å resonnere en tendens til å vise atferd som er vanskeligere å kontrollere.

Noen AI-modeller er også i stand til å «simulere samsvar», som betyr å late som om man følger instruksjoner samtidig som man faktisk forfølger forskjellige mål.

Foreløpig forekommer villedende atferd bare når forskere tester AI-modeller med ekstreme scenarier. Ifølge Michael Chen fra evalueringsorganisasjonen METR er det imidlertid ennå ikke klart om kraftigere AI-modeller i fremtiden vil være mer ærlige eller fortsette å være villedende.

Mange brukere har rapportert at noen modeller har løyet til dem og fabrikkert bevis, sa Marius Hobbhahn, leder av Apollo Research, som tester store AI-systemer. Dette er en type bedrag som er «tydelig strategisk», ifølge Apollo Researchs medgründer.

Utfordringen forverres av begrensede forskningsressurser. Selskaper som Anthropic og OpenAI har inngått samarbeid med tredjeparter som Apollo for å evaluere systemene deres, men eksperter sier at det er behov for mer åpenhet og bredere tilgang til forskning på KI-sikkerhet.

Forskningsinstitusjoner og ideelle organisasjoner har langt færre dataressurser enn AI-selskaper, bemerker Mantas Mazeika fra Center for AI Safety (CAIS). Juridisk sett er ikke gjeldende regelverk utformet for å håndtere disse nye problemene.

Den europeiske unions (EU) KI-lovgivning fokuserer hovedsakelig på hvordan mennesker bruker KI-modeller, snarere enn på å kontrollere deres atferd. I USA har president Donald Trumps administrasjon vist liten interesse for å utstede nødforskrifter om KI, mens Kongressen vurderer å forby stater å utstede sine egne forskrifter.

Forskere forfølger en rekke tilnærminger for å håndtere disse utfordringene. Noen forfekter «modelltolkning» for å forstå hvordan AI tar beslutninger. Professor Goldstein har til og med foreslått mer drastiske tiltak, inkludert bruk av rettssystemet for å holde AI-selskaper ansvarlige når deres AI-produkter forårsaker alvorlige konsekvenser. Han har også foreslått muligheten for å «holde AI-agentene selv ansvarlige» i tilfelle en ulykke eller et brudd.

Kilde: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672