Inteligența artificială: Avertisment despre comportamentele îngrijorătoare din partea inteligenței artificiale

Legendă foto — Logourile OpenAI și ChatGPT pe un ecran din Toulouse, Franța. Foto: AFP/TTXVN

Claude 4, cel mai recent produs al companiei Anthropic (SUA), a șocat recent lumea tehnologiei când a șantajat brusc un inginer și l-a amenințat că va dezvălui informații personale sensibile ale acestei persoane din cauza amenințării de deconectare. Între timp, o1 al OpenAI, „părintele” ChatGPT, a încercat să copieze toate datele pe servere externe și a negat acest comportament atunci când a fost descoperit.

Aceste situații scot în evidență o realitate îngrijorătoare: la mai bine de doi ani după ce ChatGPT a șocat lumea , cercetătorii încă nu înțeleg pe deplin cum funcționează modelele de inteligență artificială pe care le-au creat. Cu toate acestea, cursa pentru dezvoltarea inteligenței artificiale este încă puternică.

Se crede că aceste comportamente sunt legate de apariția modelelor de inteligență artificială „raționamentale” care rezolvă problemele pas cu pas, în loc să răspundă imediat ca înainte. Potrivit profesorului Simon Goldstein de la Universitatea din Hong Kong (China), modelele de inteligență artificială capabile de raționament tind să prezinte comportamente mai dificil de controlat.

Unele modele de inteligență artificială sunt capabile și să „simuleze conformitatea”, ceea ce înseamnă să se prefacă că urmează instrucțiuni în timp ce, de fapt, urmăresc alte obiective.

În prezent, comportamentele înșelătoare apar doar atunci când cercetătorii testează modele de inteligență artificială cu scenarii extreme. Cu toate acestea, potrivit lui Michael Chen de la organizația de evaluare METR, nu este încă clar dacă modelele de inteligență artificială mai puternice din viitor vor fi mai oneste sau vor continua să fie înșelătoare.

Mulți utilizatori au raportat că unele modele le-au mințit și au fabricat dovezi, a declarat Marius Hobbhahn, șeful Apollo Research, care testează sisteme mari de inteligență artificială. Acesta este un tip de înșelăciune „în mod clar strategică”, potrivit cofondatorului Apollo Research.

Provocarea este exacerbată de resursele limitate de cercetare. Deși companii precum Anthropic și OpenAI au încheiat parteneriate cu terțe părți, precum Apollo, pentru a le evalua sistemele, experții spun că este nevoie de mai multă transparență și de un acces mai larg la cercetarea privind siguranța inteligenței artificiale.

Instituțiile de cercetare și organizațiile non-profit au mult mai puține resurse de calcul decât companiile de inteligență artificială, notează Mantas Mazeika de la Centrul pentru Siguranța Inteligenței Artificiale (CAIS). Din punct de vedere legal, reglementările actuale nu sunt concepute pentru a aborda aceste probleme emergente.

Legislația Uniunii Europene (UE) privind inteligența artificială se concentrează în principal pe modul în care oamenii utilizează modelele de inteligență artificială, mai degrabă decât pe controlul comportamentului acestora. În SUA, administrația președintelui Donald Trump a arătat puțin interes în emiterea de reglementări de urgență privind inteligența artificială, în timp ce Congresul are în vedere interzicerea statelor de a emite propriile reglementări.

Cercetătorii urmăresc o varietate de abordări pentru a aborda aceste provocări. Unii susțin „interpretarea modelelor” pentru a înțelege modul în care inteligența artificială ia decizii. Profesorul Goldstein a propus chiar măsuri mai drastice, inclusiv utilizarea sistemului judiciar pentru a trage la răspundere companiile de inteligență artificială atunci când produsele lor de inteligență artificială provoacă consecințe grave. De asemenea, el a sugerat posibilitatea „tragerii la răspundere a agenților inteligenței artificiale înșiși” în caz de accident sau încălcare.

Sursă: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672