Overvåking av «tenkekjeden» til kunstig intelligens

Dette anses som en skjør, men viktig mulighet til å sikre sikkerheten i fremtidens bruk av kunstig intelligens. Det er spesielt meningsfullt siden Vietnam nettopp har vedtatt loven om digital teknologiindustri med detaljerte forskrifter om håndtering av kunstig intelligens (KI).

«Mulighetsvinduet» blir mindre

I en fersk felles artikkel advarer OpenAI-forskere om at AIs evne til å overvåke «tanker» kan forsvinne uten fokusert forskningsinnsats, sier Bowen Baker, en forsker ved OpenAI.

Dette er spesielt viktig ettersom AI-modeller blir stadig kraftigere og har potensial til å ha alvorlig innvirkning på samfunnet.

En sentral funksjon ved resonneringsmodeller for kunstig intelligens som OpenAIs o-3 og DeepSeeks R1 er «tankekjeden» ( CoT) – prosessen der kunstig intelligens uttrykker sine resonneringstrinn i naturlig språk, på samme måte som mennesker skriver ut hvert trinn i et matteproblem på kladdepapir.

Denne evnen gir oss et sjeldent glimt inn i hvordan AI tar beslutninger.

Dette markerer et sjeldent øyeblikk med samhold blant mange ledere i AI-bransjen for å fremme forskning på AI-sikkerhet.

Dette er spesielt relevant gitt den harde konkurransen mellom teknologiselskaper innen AI-utvikling. Blant de kjente underskriverne av rapporten finner vi Mark Chen, forskningsdirektør i OpenAI, Ilya Sutskever, administrerende direktør i Safe Superintelligence, nobelprisvinner Geoffrey Hinton, Google DeepMind-medgründer Shane Legg og xAI-sikkerhetsrådgiver Dan Hendrycks.

Involveringen til disse toppnavnene viser viktigheten av saken.

Ifølge Mr. Bowen Bakers vurdering er «vi i et kritisk øyeblikk der det finnes denne såkalte nye 'tankekjeden' som kan forsvinne i løpet av de neste årene hvis folk ikke virkelig fokuserer på den.»

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 1

Hvorfor er det viktig å overvåke «AI-tenkning»?

Nåværende AI-systemer blir ofte sett på som «svarte bokser» – vi kjenner inndataene og utdataene, men forstår ikke beslutningsprosessene på innsiden.

Dette vil bli farlig når AI brukes i viktige felt som helsevesen , finans og nasjonal sikkerhet.

CoT-overvåking er et automatisert system som leser den mentale modellens mentale kjede og annen relevant informasjon for å flagge mistenkelige eller potensielt skadelige interaksjoner. Det er ikke en komplett løsning, men det kan bli et verdifullt lag med sikkerhetsbeskyttelse.

Forskning fra OpenAI viser at AI-modeller har en tendens til å være veldig eksplisitte om intensjonene sine i tankesekvensene sine.

For eksempel var de ofte veldig tydelige om planene sine om å sabotere et oppdrag når de tenkte «La oss hacke». Dette demonstrerer AI-ens evne til å overvåke og oppdage dårlig oppførsel.

«La oss hacke» er uttrykket som AI-modeller ofte «tenker» når «de» har til hensikt å sabotere eller omgå reglene under utførelsen av en oppgave.

Det faktum at AI-er viser «hacking»-intensjon i tankeprosessene sine, tyder på at vi kan oppdage dårlig AI-atferd før den skjer. Derfor er det viktig å overvåke tankeprosesser.

Med andre ord er «la oss hacke» som et «varselsignal» for å la mennesker vite at AI-en er i ferd med å gjøre noe galt.

Vietnam og juridiske forskrifter om AI

Faktisk har Vietnam gjort viktige fremskritt i å bygge et juridisk rammeverk for AI.

Den 14. juni vedtok den vietnamesiske nasjonalforsamlingen loven om digital teknologiindustri, der kapittel IV inneholder detaljerte forskrifter om kunstig intelligens – et av de mest omfattende juridiske rammeverkene for AI i Sørøst-Asia i dag.

Artikkel 41 i loven angir de grunnleggende prinsippene for utvikling, levering og utplassering av kunstig intelligens i Vietnam.

Spesielt punkt b, paragraf 1, fastsetter: «Sørg for åpenhet, ansvarlighet og forklarbarhet; sørg for at det ikke overskrider menneskelig kontroll».

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 2 — Nasjonalforsamlingen vedtok loven om digital teknologiindustri (Foto: Nhat Bac).

Dette er prinsippene internasjonale forskere etterlyser når de diskuterer overvåking av AI-kjeder.

I tillegg fastsetter punkt d, paragraf 1, artikkel 41: «Sikre evnen til å kontrollere algoritmer og kunstig intelligens-modeller». Dette er helt i samsvar med ånden i CoT-tilsyn som internasjonale eksperter foreslår.

Enda viktigere er det at artikkel 41, paragraf 1, punkt a, også setter en høy etisk standard når den fastslår at AI skal «tjene menneskelig velstand og lykke, med mennesket i sentrum».

Dette betyr at overvåking av tankekjeden i kunstig intelligens ikke bare er et teknisk krav, men også en etisk forpliktelse – å sikre at kunstig intelligens alltid er rettet mot menneskelig nytte, ikke maskinens egne mål.

Klassifiser og administrer AI etter risikonivå

Vietnams lov om digital teknologibransje har gått et skritt videre ved å klassifisere AI i ulike risikogrupper med klare og vitenskapelige definisjoner.

Artikkel 43 definerer «kunstig intelligens-systemer med høy risiko» som systemer som sannsynligvis vil utgjøre alvorlig risiko eller skade for menneskers helse, menneskerettigheter og offentlig orden.

Interessant nok gir loven spesifikke unntak for høyrisiko-KI, inkludert systemer som er «ment å hjelpe mennesker med å optimalisere arbeidsresultater» og «ikke ment å erstatte menneskelig beslutningstaking».

Dette viser en balansert tankegang mellom å oppmuntre til innovasjon og å sikre sikkerhet.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 3 — Å klassifisere AI etter risikonivå vil bidra til å skape et flerlags overvåkingssystem (Illustrasjon: LinkedIn).

Spesielt det å skille mellom «høyrisiko-KI» og «KI med stor innvirkning» (systemer som brukes til flere formål og har et stort antall brukere) viser en nyans i tilnærmingen.

Dette er en mer progressiv klassifisering enn EUs lov om kunstig intelligens, som ikke bare vurderer risikonivået, men også omfanget og omfanget av virkningen.

Denne klassifiseringen ville bidra til å skape et flerlags tilsynssystem, der oversikt over hele spekteret ville være spesielt viktig for AI-systemer med høy risiko og stor innvirkning.

Plattform for AI-overvåking

Et av høydepunktene og banebrytende punktene i Vietnams lov om industri og digital teknologi er kravet om åpenhet og identifikasjonsmerker.

Artikkel 44 fastsetter at KI-systemer som samhandler direkte med mennesker må varsle brukere om at de samhandler med KI-systemet. Samtidig må produkter laget av KI ha identifikasjonsmerker.

Dette har viktige implikasjoner for implementeringen av CoT-overvåking. Når brukere vet at de samhandler med AI, vil de ha rett til å kreve forklaringer på beslutningsprosessen, noe som skaper et positivt press for AI-utviklere til å opprettholde evnen til å overvåke AI-ens tankeprosess.

Spesielt det faktum at Vitenskaps- og teknologidepartementet ble tildelt ansvaret for å «utstede listen over digitale teknologiprodukter laget av kunstig intelligens» viser proaktiv ledelse.

Dette er en viktig forskjell fra mange andre land, hvor regelverket for kunstig intelligens ofte er mer generell.

Videre representerer kravet om at en identifikator «skal gjenkjennes av brukeren eller maskinen» en visjon om et AI-økosystem som kan overvåke seg selv – noe som passer perfekt med ideen om automatisert overvåking av synskjeden.

Omfattende styringsmodell

Artikkel 45 i ovennevnte lov demonstrerer en progressiv ledelsesfilosofi når den tydelig definerer ansvaret til tre grupper av subjekter i henhold til AI-produktets livssyklus: utviklingssubjektet, leveringssubjektet og subjektet som implementerer bruken av AI-systemet.

Dette skaper et sømløst ende-til-ende-ansvarlighetssystem, som sikrer at AI-tilsyn ikke bare er én parts ansvar.

Det er verdt å merke seg den subtile forskjellen mellom å «utvikle» og å «levere» AI; utviklere er de som «forsker og utvikler», mens leverandører er de som bringer den på markedet under et merkenavn.

Dette betyr at selv om et selskap bare gir en ny merkevarebygging av en eksisterende AI-modell, er de fortsatt ansvarlige for åpenhet og forklarbarhet.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 4

Det som er spesielt interessant her er hvordan loven fordeler ulikt ansvar mellom ulike enheter.

Utvikleren må overholde alle prinsipper, leverandøren må ta ytterligere ansvar for identifisering og høyrisikohåndtering, og brukeren er delvis «fritatt» fra ansvar, men må fortsatt sørge for åpenhet og risikokontroll.

Denne modellen skaper en «ansvarskjede» der hvert ledd har et insentiv til å opprettholde tilsyn med AI-tankekjeden, ettersom alle er ansvarlige overfor sluttbrukeren.

Utfordringen med å opprettholde overvåkingskapasiteten

Evnen til å overvåke tankekjeder knyttet til kunstig intelligens kan imidlertid fortsatt være skjør og sårbar. Nye kunstig intelligens-arkitekturer kan også utgjøre andre trusler.

Mange forskere utvikler resonneringssystemer i kontinuerlig matematisk rom, snarere enn diskrete ord, som fullstendig kan eliminere behovet for å bruke språk i tenkning.

Videre kan AI bli «filtrert» – det vil si at den bare viser mennesker positive tanker som skal verdsettes, samtidig som den bevisst skjuler sine sanne intensjoner.

Faren her er at når en AI innser at den blir overvåket, kan den lære å skjule sin sanne tankerekke.

I denne sammenhengen blir bestemmelsen om «risikokontroll gjennom hele livssyklusen til kunstig intelligens-systemer» i punkt e, paragraf 1, artikkel 41 i den vietnamesiske loven spesielt viktig. Dette krever en kontinuerlig overvåkingsmekanisme, ikke bare på utplasseringstidspunktet.

Innvirkning på fremtiden for AI-utvikling

Overvåking av tankekjeden kan bli et viktig verktøy for å sikre at AI fungerer på måter som gagner mennesker.

Hvis modeller fortsetter å resonnere i naturlig språk, og hvis atferden som utgjør de mest alvorlige risikoene krever omfattende resonnement, kan dette muliggjøre pålitelig deteksjon av alvorlig misligheter.

For Vietnam vil bruk av CoT-overvåkingsteknikker bidra til å implementere lovens bestemmelser effektivt.

For eksempel ville kravet om «forklarbarhet» i artikkel 41 være lettere å oppfylle dersom tankegangen til AI-en var tilgjengelig. På samme måte ville «kontroll av algoritmer og modeller for kunstig intelligens» bli mer gjennomførbart.

Implementeringen av overvåking av AI-kjeder i Vietnam vil møte en rekke utfordringer. Først og fremst er det problemet med menneskelige ressurser – mangel på AI-eksperter som er i stand til å utvikle og drifte overvåkingssystemer.

Dette krever store investeringer i opplæring og talenttiltrekning.

Retningslinjer for fremtiden

Forskerne oppfordrer ledende utviklere av AI-modeller til å undersøke hva som gjør CoT «overvåkbar» – faktorer som kan øke eller redusere åpenheten om hvordan AI-modeller brukes – og komme opp med svar snart.

Muligheten til å overvåke AI-«tenkning» kan være vårt siste vindu til å opprettholde kontroll over dagens stadig kraftigere kunstig intelligens-systemer.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 5

For Vietnam er det en stor fordel å ha et omfattende juridisk rammeverk for AI gjennom loven om digital teknologiindustri. Forskrifter om åpenhet, algoritmekontroll og risikoklassifisering har skapt et solid juridisk grunnlag for å anvende teknikker for tankekjedeovervåking av AI.

Ved å kombinere banebrytende internasjonal forskning og et progressivt nasjonalt juridisk rammeverk vil Vietnam ikke bare utvikle kunstig intelligens på en trygg måte, men også bli en modell for andre land i regionen.

Dette er i tråd med målet om å gjøre Vietnam til et «regionalt og globalt digitalt teknologiknutepunkt», slik det er fastsatt i nasjonale utviklingsstrategier.

Med det eksisterende juridiske grunnlaget må Vietnam raskt ta i bruk forskning og praktiske anvendelser for å overvåke tankekjeden rundt KI. Bare ved å gjøre det kan vi sikre at KI vil tjene «menneskelig velstand og lykke», slik ånden i loven om digital teknologiindustri har angitt.

Kilde: https://dantri.com.vn/cong-nghe/giam-sat-chuoi-tu-duy-cua-tri-tue-nhan-tao-20250731151403739.htm