Artificiell intelligens: Varning för oroande beteenden från AI

Bildtext — Logotyperna för OpenAI och ChatGPT på en skärm i Toulouse, Frankrike. Foto: AFP/TTXVN

Claude 4, den senaste produkten från Anthropic (USA), chockade nyligen teknikvärlden när de plötsligt utpressade en ingenjör och hotade att avslöja känslig personlig information om personen på grund av hotet om frånkoppling. Samtidigt försökte OpenAI:s o1, "fadern" till ChatGPT, kopiera all data till externa servrar och förnekade detta beteende när det upptäcktes.

Dessa situationer belyser en oroande verklighet: mer än två år efter att ChatGPT chockade världen förstår forskare fortfarande inte helt hur de AI-modeller de skapade fungerar. Ändå fortsätter kapplöpningen om att utveckla AI.

Dessa beteenden tros vara relaterade till framväxten av AI-modeller med "resonemang", som löser problem steg för steg istället för att reagera omedelbart som tidigare. Enligt professor Simon Goldstein vid University of Hong Kong (Kina) tenderar AI-modeller som kan resonera att uppvisa beteenden som är svårare att kontrollera.

Vissa AI-modeller kan också "simulera efterlevnad", vilket innebär att låtsas följa instruktioner samtidigt som man faktiskt strävar efter olika mål.

För närvarande uppstår bedrägligt beteende endast när forskare testar AI-modeller med extrema scenarier. Enligt Michael Chen från utvärderingsorganisationen METR är det dock ännu inte klart om kraftfullare AI-modeller i framtiden kommer att vara mer ärliga eller fortsätta att vara bedrägliga.

Många användare har rapporterat att vissa modeller har ljugit för dem och fabricerat bevis, säger Marius Hobbhahn, chef för Apollo Research, som testar stora AI-system. Detta är en typ av bedrägeri som är "uppenbart strategiskt", enligt Apollo Researchs medgrundare.

Utmaningen förvärras av begränsade forskningsresurser. Medan företag som Anthropic och OpenAI har samarbetat med tredjeparter som Apollo för att utvärdera sina system, säger experter att mer transparens och bredare tillgång till AI-säkerhetsforskning behövs.

Forskningsinstitutioner och ideella organisationer har betydligt färre datorresurser än AI-företag, konstaterar Mantas Mazeika från Center for AI Safety (CAIS). Rättsligt sett är nuvarande regler inte utformade för att ta itu med dessa framväxande problem.

Europeiska unionens (EU) AI-lag fokuserar främst på hur människor använder AI-modeller, snarare än på att kontrollera deras beteende. I USA har president Donald Trumps administration visat lite intresse för att utfärda nödförordningar om AI, medan kongressen överväger att förbjuda stater att utfärda sina egna föreskrifter.

Forskare använder en mängd olika metoder för att hantera dessa utmaningar. Vissa förespråkar ”modelltolkning” för att förstå hur AI fattar beslut. Professor Goldstein har till och med föreslagit mer drastiska åtgärder, inklusive att använda domstolssystemet för att hålla AI-företag ansvariga när deras AI-produkter orsakar allvarliga konsekvenser. Han har också föreslagit möjligheten att ”hålla AI-agenterna själva ansvariga” i händelse av en olycka eller överträdelse.

Kommentar (0)