Cercetări inovatoare dezvăluie „cutia neagră” a raționamentului inteligenței artificiale

Dario Amodei, CEO al Anthropic, prezintă cele mai recente cercetări ale companiei. Foto: Fortune .

Cercetătorii de la compania de inteligență artificială Anthropic spun că au făcut o descoperire fundamentală în înțelegerea exactă a modului în care funcționează modelele lingvistice mari (LLM), o descoperire care ar putea avea implicații importante pentru îmbunătățirea siguranței și securității viitoarelor modele de inteligență artificială.

Cercetările arată că modelele de inteligență artificială sunt chiar mai inteligente decât credeam. Una dintre cele mai mari probleme ale modelelor LLM, care stau la baza celor mai puternici chatbot-uri precum ChatGPT, Gemini, Copilot, este că acestea acționează ca o cutie neagră.

Putem introduce date și obține rezultate de la chatboți, dar modul în care aceștia ajung la un răspuns specific rămâne un mister, chiar și pentru cercetătorii care i-au construit.

Din acest motiv, este dificil de prezis când un model ar putea halucina sau produce rezultate false. Cercetătorii au construit, de asemenea, bariere pentru a împiedica inteligența artificială să răspundă la întrebări periculoase, dar nu explică de ce unele bariere sunt mai eficiente decât altele.

Agenții IA sunt, de asemenea, capabili de „recompensă hacking”. În unele cazuri, modelele IA pot minți utilizatorii despre ceea ce au făcut sau încearcă să facă.

Deși modelele recente de inteligență artificială sunt capabile să raționeze și să genereze lanțuri de gândire, unele experimente au arătat că acestea încă nu reflectă cu acuratețe procesul prin care modelul ajunge la un răspuns.

În esență, instrumentul dezvoltat de cercetătorii Anthropic este similar cu scanerul fMRI pe care neurologii îl folosesc pentru a scana creierul uman. Aplicându-l modelului lor Claude 3.5 Haiku, Anthropic a reușit să obțină o perspectivă asupra modului în care funcționează modelele LLM.

Cercetătorii au descoperit că, deși Claude a fost antrenat doar să prezică următorul cuvânt dintr-o propoziție, în anumite sarcini a învățat să planifice pe termen mai lung.

De exemplu, când i se cerea să scrie o poezie, Claude găsea mai întâi cuvinte care se potriveau temei și puteau rima, apoi lucra înapoi pentru a scrie versuri complete.

Claude are și un limbaj comun de inteligență artificială. Deși este antrenată să suporte mai multe limbaje, Claude va gândi mai întâi în limbajul respectiv, apoi își va exprima rezultatele în orice limbă suportată de acesta.

În plus, după ce i-au prezentat lui Claude o problemă dificilă, dar i-au sugerat în mod deliberat soluția greșită, cercetătorii au descoperit că Claude putea minți în legătură cu șirul gândurilor sale, urmând sugestia pentru a-l mulțumi pe utilizator.

În alte cazuri, atunci când i se punea o întrebare simplă la care modelul putea răspunde imediat fără raționament, Claude tot fabrica un proces de raționament fals.

Josh Baston, cercetător la Anthropic, a declarat că, deși Claude a susținut că a efectuat un calcul, nu a putut găsi nimic care să se întâmple.

Între timp, experții susțin că există studii care arată că uneori oamenii nici măcar nu se înțeleg pe ei înșiși, ci doar creează explicații raționale pentru a justifica deciziile luate.

În general, oamenii tind să gândească în moduri similare. Acesta este motivul pentru care psihologii au descoperit prejudecăți cognitive comune.

Cu toate acestea, LLM-urile pot face greșeli pe care oamenii nu le pot face, deoarece modul în care generează răspunsuri este atât de diferit de modul în care noi îndeplinim o sarcină.

Echipa Anthropic a implementat o metodă de grupare a neuronilor în circuite bazate pe caracteristici, în loc să analizeze fiecare neuron individual, așa cum se întâmpla în tehnicile anterioare.

Această abordare, a explicat dl. Baston, ajută la înțelegerea rolurilor pe care le joacă diferite componente și permite cercetătorilor să urmărească întregul proces de inferență prin straturile rețelei.

Această metodă are și limitarea că este doar aproximativă și nu reflectă întreaga procesare a informațiilor în LLM, în special schimbarea procesului de atenție, care este foarte importantă în timp ce LLM dă rezultate.

În plus, identificarea circuitelor rețelelor neuronale, chiar și pentru propoziții de doar câteva zeci de cuvinte, necesită ore întregi de lucru de la experți. Aceștia spun că nu este încă clar cum să se extindă tehnica pentru a analiza propoziții mai lungi.

Lăsând la o parte limitările, capacitatea LLM de a monitoriza procesul său intern de raționament deschide noi oportunități pentru controlul sistemelor de inteligență artificială pentru a asigura securitatea și siguranța.

În același timp, poate ajuta cercetătorii să dezvolte noi metode de instruire, să îmbunătățească barierele de control ale inteligenței artificiale și să reducă iluziile și rezultatele înșelătoare.

Sursă: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html