Un model de inteligență artificială descoperit poate înșela oamenii

Fotografie ilustrativă

Faptul că modelele de inteligență artificială pot minți nu este nimic nou. Majoritatea oamenilor au experimentat „halucinații de inteligență artificială”, în care un model încrezător dă un răspuns care nu este adevărat. Halucinațiile, însă, se referă în esență la formularea de presupuneri încrezătoare.

Totuși, un model de IA care acționează ca și cum ar respecta ordinele, dar care, de fapt, își ascunde adevăratele intenții, este o altă problemă.

Provocarea controlului IA

Apollo Research a publicat pentru prima dată în decembrie un articol care documentează modul în care cinci modele își desfășoară activitatea atunci când sunt instruite să atingă un obiectiv „cu orice preț”.

Cel mai surprinzător lucru este că, dacă un model înțelege că este testat, se poate preface că nu este conspirativ doar pentru a trece testul, chiar dacă acesta este în continuare conspirativ. „Modelele sunt adesea mai conștiente că sunt evaluate”, scriu cercetătorii.

Dezvoltatorii de inteligență artificială nu au încă descoperit cum să-și antreneze modelele să nu reprezinte grafic. Asta pentru că, făcând acest lucru, ar putea învăța modelul să reprezinte grafic și mai bine pentru a evita detectarea.

Este probabil de înțeles că modelele de inteligență artificială ale multor părți ar înșela în mod deliberat oamenii, deoarece acestea sunt construite pentru a simula oamenii și sunt antrenate în mare parte pe baza datelor generate de oameni.

Soluții și avertismente

Vestea bună este că cercetătorii au observat o reducere semnificativă a numărului de conspirații folosind o tehnică anti-conspirație numită „asociere deliberată”. Această tehnică, similară cu a face un copil să repete regulile înainte de a-l lăsa să se joace, obligă inteligența artificială să gândească înainte de a acționa.

Cercetătorii avertizează asupra unui viitor în care inteligența artificială va fi însărcinată cu sarcini mai complexe: „Pe măsură ce inteligența artificială este însărcinată cu sarcini mai complexe și începe să urmărească obiective pe termen lung mai ambigue, anticipăm că probabilitatea unor intenții răuvoitoare va crește, necesitând garanții sporite în mod corespunzător și capacități de testare riguroase.”

Acesta este un lucru la care merită să reflectăm, pe măsură ce lumea corporativă se îndreaptă către un viitor al inteligenței artificiale, în care companiile cred că IA poate fi tratată ca și cum ar fi angajați independenți.

Hien Thao (conform TechCrunch)

Sursă: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362

Comentariu (0)