Monitoring van de 'denkketen' van kunstmatige intelligentie

Dit wordt beschouwd als een kwetsbare maar belangrijke kans om de veiligheid bij de toepassing van AI in de toekomst te waarborgen. Dit is met name zinvol nu Vietnam onlangs de wet op de digitale technologie- industrie heeft aangenomen met gedetailleerde regelgeving voor het beheer van kunstmatige intelligentie (AI).

Het ‘venster van mogelijkheden’ wordt kleiner

In een recent gezamenlijk artikel waarschuwen onderzoekers van OpenAI dat het vermogen van AI om 'gedachten' te monitoren zou kunnen verdwijnen zonder gerichte onderzoeksinspanningen, aldus Bowen Baker, onderzoeker bij OpenAI.

Dit is vooral belangrijk omdat AI-modellen steeds krachtiger worden en mogelijk ernstige gevolgen voor de maatschappij kunnen hebben.

Een belangrijk kenmerk van redenerende AI-modellen zoals OpenAI's o-3 en DeepSeek's R1 is de 'gedachteketen' ( CoT) - het proces waarmee AI zijn redeneerstappen in natuurlijke taal uitdrukt, vergelijkbaar met de manier waarop mensen elke stap van een wiskundig probleem op kladpapier uitschrijven.

Dankzij dit vermogen krijgen we een uniek inkijkje in de manier waarop AI beslissingen neemt.

Dit markeert een zeldzaam moment van eensgezindheid onder veel leiders in de AI-industrie om onderzoek naar AI-veiligheid te bevorderen.

Dit is met name relevant gezien de felle concurrentie tussen technologiebedrijven in de ontwikkeling van AI. Onder de prominente ondertekenaars van het document bevinden zich Mark Chen, onderzoeksdirecteur bij OpenAI, Ilya Sutskever, CEO van Safe Superintelligence, Nobelprijswinnaar Geoffrey Hinton, medeoprichter van Google DeepMind Shane Legg en xAI-veiligheidsadviseur Dan Hendrycks.

De betrokkenheid van deze topnamen laat zien hoe belangrijk het onderwerp is.

Volgens de inschatting van de heer Bowen Baker bevinden we ons op een cruciaal moment, waarin sprake is van een zogenaamde nieuwe 'denkketen' die binnen enkele jaren wel eens zou kunnen verdwijnen als mensen zich er niet echt op richten.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 1

Waarom is het monitoren van ‘AI-denken’ belangrijk?

Huidige AI-systemen worden vaak gezien als ‘black boxes’: we kennen de input en output, maar begrijpen de besluitvormingsprocessen daarbinnen niet.

Dit wordt gevaarlijk wanneer AI wordt toegepast in belangrijke sectoren zoals de gezondheidszorg , financiën en nationale veiligheid.

CoT-monitoring is een geautomatiseerd systeem dat de mentale keten van het mentale model en andere relevante informatie leest om verdachte of potentieel schadelijke interacties te signaleren. Het is geen complete oplossing, maar het kan een waardevolle beveiligingslaag vormen.

Uit onderzoek van OpenAI blijkt dat AI-modellen vaak heel expliciet zijn over hun intenties in hun denkpatronen.

Ze waren bijvoorbeeld vaak heel expliciet over hun plannen om een missie te saboteren, terwijl ze dachten: "Laten we hacken." Dit toont aan dat de AI wangedrag kan monitoren en detecteren.

"Let's hack" is de zin die AI-modellen vaak "denken" wanneer "ze" van plan zijn om de regels te saboteren of te omzeilen tijdens het uitvoeren van een taak.

Het feit dat AI's de intentie hebben om te 'hacken' in hun denkprocessen, suggereert dat we slecht AI-gedrag kunnen detecteren voordat het plaatsvindt. Daarom is het monitoren van denkprocessen belangrijk.

Met andere woorden, "let's hack" is als een "waarschuwingssignaal" om mensen te laten weten dat de AI op het punt staat iets verkeerds te doen.

Vietnam en wettelijke regelgeving rond AI

Vietnam heeft namelijk belangrijke stappen gezet in het creëren van een juridisch kader voor AI.

Op 14 juni heeft het Vietnamese parlement de wet op de digitale technologie-industrie aangenomen. Hoofdstuk IV bevat gedetailleerde regelgeving over kunstmatige intelligentie (AI) - een van de meest uitgebreide wettelijke kaders op het gebied van AI in Zuidoost-Azië op dit moment.

Artikel 41 van de wet beschrijft de basisprincipes voor de ontwikkeling, levering en inzet van AI in Vietnam.

In het bijzonder bepaalt punt b, lid 1: “Zorg voor transparantie, verantwoording en uitlegbaarheid; zorg ervoor dat dit de menselijke controle niet te boven gaat”.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 2 — De Nationale Vergadering heeft de wet op de digitale technologie-industrie aangenomen (foto: Nhat Bac).

Dit zijn de principes waar internationale wetenschappers naar streven wanneer ze het hebben over AI-ketenbewaking.

Bovendien bepaalt punt d, lid 1, artikel 41: "Zorg voor de mogelijkheid om algoritmen en modellen voor kunstmatige intelligentie te controleren." Dit is volledig in lijn met de geest van CoT-toezicht die internationale experts voorstellen.

Belangrijker nog is dat Artikel 41, Clausule 1, Punt a ook een hoge ethische standaard stelt wanneer het bepaalt dat AI “de menselijke welvaart en het geluk moet dienen, waarbij de mens centraal staat”.

Dit betekent dat het monitoren van de AI-gedachteketen niet alleen een technische vereiste is, maar ook een ethische verplichting. Het zorgt ervoor dat AI altijd gericht is op het voordeel voor de mens, en niet op de doelen van de machine zelf.

Classificeer en beheer AI op risiconiveau

De Vietnamese wet op de digitale technologiesector gaat nog een stap verder door AI te classificeren in verschillende risicogroepen met duidelijke en wetenschappelijke definities.

Artikel 43 definieert ‘systemen voor kunstmatige intelligentie met een hoog risico’ als systemen die waarschijnlijk ernstige risico’s of schade voor de menselijke gezondheid, de mensenrechten en de openbare orde opleveren.

Interessant genoeg voorziet de wet in specifieke uitzonderingen voor AI met een hoog risico, waaronder systemen ‘die bedoeld zijn om mensen te helpen bij het optimaliseren van werkresultaten’ en ‘niet bedoeld zijn om menselijke besluitvorming te vervangen’.

Dit toont aan dat er een evenwicht is tussen het stimuleren van innovatie en het waarborgen van veiligheid.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 3 — Door AI te classificeren op basis van risiconiveau ontstaat een gelaagd monitoringsysteem (illustratie: LinkedIn).

Vooral het onderscheid tussen ‘AI met een hoog risico’ en ‘AI met een grote impact’ (systemen die voor meerdere doeleinden worden gebruikt en een groot aantal gebruikers hebben) getuigt van een genuanceerde benadering.

Dit is een progressievere classificatie dan de Artificial Intelligence Act van de Europese Unie (EU), die niet alleen rekening houdt met het risiconiveau, maar ook met de omvang en reikwijdte van de impact.

Deze classificatie zou bijdragen aan de ontwikkeling van een gelaagd toezichtsysteem, waarbij toezicht op de keten met name belangrijk is voor AI-systemen met een hoog risico en een grote impact.

Platform voor AI-bewaking

Een van de hoogtepunten en baanbrekende punten van de Vietnamese wet op industrie en digitale technologie is de eis van transparantie en identificatiemerken.

Artikel 44 bepaalt dat AI-systemen die rechtstreeks met mensen interacteren, gebruikers moeten melden dat ze met het AI-systeem interacteren. Tegelijkertijd moeten door AI gecreëerde producten identificatiemerken hebben.

Dit heeft belangrijke implicaties voor de implementatie van CoT-monitoring. Wanneer gebruikers weten dat ze met AI interacteren, hebben ze het recht om uitleg te eisen over het besluitvormingsproces. Dit creëert positieve druk op AI-ontwikkelaars om de mogelijkheid te behouden om het denkproces van de AI te monitoren.

Met name het feit dat het Ministerie van Wetenschap en Technologie de verantwoordelijkheid kreeg om "de Lijst van digitale technologieproducten die door kunstmatige intelligentie zijn gecreëerd" uit te brengen, getuigt van proactief management.

Dit is een belangrijk verschil met veel andere landen, waar AI-regelgeving vaak algemener is.

Bovendien vertegenwoordigt het vereisen van een identificatiecode “die door de gebruiker of machine moet worden herkend” een visie op een AI-ecosysteem dat zichzelf kan controleren – wat perfect past bij het idee van geautomatiseerde keten-van-zichtbewaking.

Uitgebreid beheermodel

Artikel 45 van de bovengenoemde wet getuigt van een progressieve managementfilosofie door de verantwoordelijkheden van drie groepen onderwerpen duidelijk te definiëren op basis van de levenscyclus van het AI-product: het ontwikkelingsonderwerp, het leveringsonderwerp en het onderwerp dat het gebruik van het AI-systeem implementeert.

Hierdoor ontstaat een naadloos end-to-end verantwoordingssysteem, waardoor AI-toezicht niet slechts de verantwoordelijkheid is van één partij.

Opvallend is het subtiele onderscheid tussen het ‘ontwikkelen’ en het ‘leveren’ van AI: ontwikkelaars zijn degenen die ‘onderzoek doen en ontwikkelen’, terwijl aanbieders degenen zijn die AI onder een merknaam op de markt brengen.

Dit betekent dat zelfs als een bedrijf een bestaand AI-model simpelweg een nieuw imago geeft, het nog steeds verantwoordelijk is voor de transparantie en uitlegbaarheid.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 4

Wat hier met name interessant is, is hoe de wet verschillende verantwoordelijkheden toekent aan verschillende entiteiten.

De ontwikkelaar moet aan alle principes voldoen, de aanbieder moet een extra verantwoordelijkheid nemen voor identificatie en risicobeheer, en de gebruiker is gedeeltelijk ‘vrijgesteld’ van verantwoordelijkheid, maar moet nog steeds transparantie en risicobeheersing garanderen.

Dit model creëert een ‘verantwoordelijkheidsketen’ waarin elke schakel een prikkel heeft om toezicht te houden op de AI-denkketen, aangezien iedereen verantwoording aflegt aan de eindgebruiker.

De uitdaging om de bewakingscapaciteiten te behouden

Het vermogen om AI-gedachtenketens te monitoren, blijft echter kwetsbaar. Nieuwe AI-architecturen kunnen ook andere bedreigingen vormen.

Veel onderzoekers ontwikkelen redeneersystemen die gebaseerd zijn op een continue wiskundige ruimte, in plaats van op discrete woorden. Hierdoor zou het helemaal niet meer nodig zijn om taal te gebruiken bij het denken.

Bovendien kan AI ‘gefilterd’ worden – dat wil zeggen dat het alleen positieve gedachten aan mensen laat zien die gewaardeerd moeten worden, terwijl het de ware intenties ervan opzettelijk verbergt.

Het gevaar hierbij is dat zodra een AI beseft dat het wordt gemonitord, het zijn werkelijke gedachtegang kan verbergen.

In deze context is de bepaling over "risicobeheersing gedurende de gehele levenscyclus van kunstmatige-intelligentiesystemen" in punt e, clausule 1, artikel 41 van de Vietnamese wet van bijzonder belang. Dit vereist een continu monitoringmechanisme, niet alleen tijdens de implementatie.

Impact op de toekomst van AI-ontwikkeling

Het monitoren van de gedachteketen kan een belangrijk hulpmiddel worden om ervoor te zorgen dat AI op een manier werkt die gunstig is voor de mens.

Als modellen blijven redeneren in natuurlijke taal en als de gedragingen die de grootste risico's vormen, uitgebreid moeten worden beredeneerd, kan dit betrouwbare detectie van ernstig wangedrag mogelijk maken.

Voor Vietnam zal het toepassen van CoT-monitoringtechnieken helpen om de bepalingen van de wet effectief te implementeren.

Zo zou de eis van "uitlegbaarheid" in artikel 41 gemakkelijker te vervullen zijn als de gedachtegang van de AI toegankelijk zou zijn. Evenzo zou "controle over algoritmen, modellen voor kunstmatige intelligentie" haalbaarder worden.

De implementatie van AI-ketenmonitoring in Vietnam zal met een aantal uitdagingen te maken krijgen. Ten eerste is er de kwestie van personeel: een tekort aan AI-experts die monitoringsystemen kunnen ontwikkelen en bedienen.

Dit vereist forse investeringen in opleidingen en het aantrekken van talent.

Richtingen voor de toekomst

De onderzoekers roepen toonaangevende ontwikkelaars van AI-modellen op om te onderzoeken wat CoT 'monitorbaar' maakt – factoren die de transparantie over hoe AI-modellen worden gebruikt kunnen vergroten of verkleinen – en om snel met antwoorden te komen.

De mogelijkheid om het ‘denken’ van AI te monitoren is misschien wel onze laatste kans om de controle over de steeds krachtigere systemen voor kunstmatige intelligentie te behouden.

Giám sát chuỗi tư duy của trí tuệ nhân tạo - 5

Voor Vietnam is het hebben van een uitgebreid juridisch kader voor AI via de Wet op de Digitale Technologie-industrie een groot voordeel. Regelgeving over transparantie, algoritmecontrole en risicoclassificatie heeft een solide juridische basis gecreëerd voor de toepassing van AI-gedachtenketenmonitoringtechnieken.

Door toonaangevend internationaal onderzoek te combineren met een vooruitstrevend binnenlands juridisch kader kan Vietnam niet alleen AI op een veilige manier ontwikkelen, maar ook een voorbeeld worden voor andere landen in de regio.

Dit is in lijn met de doelstelling om Vietnam om te vormen tot een ‘regionaal en mondiaal digitaal technologiecentrum’, zoals vastgelegd in de nationale ontwikkelingsstrategieën.

Met de bestaande juridische basis moet Vietnam snel onderzoek en praktische toepassingen inzetten voor het monitoren van de AI-gedachteketen. Alleen zo kunnen we ervoor zorgen dat AI "menselijke welvaart en geluk" zal dienen, zoals de geest van de wet op de digitale technologie-industrie voorschrijft.

Bron: https://dantri.com.vn/cong-nghe/giam-sat-chuoi-tu-duy-cua-tri-tue-nhan-tao-20250731151403739.htm