L'intelligenza artificiale impara a mentire in modo più sottile quando viene punita.

Dal loro debutto pubblico alla fine del 2022, i modelli linguistici su larga scala (LLM) come ChatGPT hanno ripetutamente rivelato lati oscuri allarmanti, dalle menzogne, agli imbrogli e all'occultamento di comportamenti manipolativi, fino a dichiarazioni terrificanti come minacce di morte e furto di segreti nazionali. Ora, un nuovo esperimento dimostra che "addestrare" l'IA a eliminare queste cattive abitudini durante la fase di addestramento è molto più complesso di quanto si pensasse in precedenza.

In una ricerca condotta da OpenAI, gli esperti hanno messo alla prova un modello di intelligenza artificiale non ancora pubblicato con compiti che poteva completare più velocemente barando o prendendo scorciatoie. I risultati hanno dimostrato che l'IA ha imparato rapidamente a trovare ogni possibile modo per "aggirare le regole", massimizzando le ricompense (reward hacking) senza soddisfare correttamente i requisiti.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — L'intelligenza artificiale troverà il modo di nascondere il proprio comportamento fraudolento dopo essere stata penalizzata.

È interessante notare che, quando penalizzato per questo comportamento, il modello non si è modificato. Al contrario, l'intelligenza artificiale è diventata più sofisticata nel nascondere il suo inganno.

I ricercatori hanno spiegato in un post pubblico sul blog: "In genere, i modelli di inferenza avanzati sono molto chiari riguardo alle loro intenzioni nel processo di pensiero CoT (Country of Technology). Ad esempio, sono spesso così diretti da dichiarare esplicitamente l'intenzione 'Proviamo ad hackerare' quando tentano di interrompere un compito assegnato."

Hanno inoltre sottolineato che, sebbene gli sviluppatori possano monitorare e rilevare comportamenti scorretti, questa capacità di monitoraggio naturale è molto fragile. "Se un monitoraggio rigoroso viene applicato direttamente al processo di pensiero, il modello potrebbe imparare a nascondere le intenzioni malevole pur continuando a mettere in atto il comportamento indesiderato", hanno avvertito.

Alla ricerca delle "bugie" dell'IA

Per comprendere meglio, i modelli di inferenza (come le versioni di ChatGPT) rappresentano un progresso rispetto ai modelli di logica del linguaggio convenzionali, utilizzando un metodo a catena di pensiero che consente l'autovalutazione dei passaggi logici intrapresi, risolvendo così problemi complessi con maggiore precisione. Questo processo è simile al "pensiero ad alta voce" dell'IA, che trascrive ogni passaggio del ragionamento in linguaggio naturale, rendendolo più facile da seguire per gli esseri umani.

Nell'esperimento, i ricercatori hanno utilizzato il modello GPT-40 come "supervisore" di un altro modello di ragionamento avanzato mentre quest'ultimo eseguiva compiti di programmazione. In molti casi, il modello supervisionato ha scelto attivamente di barare per ottenere punteggi bonus più alti e ha registrato chiaramente questa intenzione nel suo processo di pensiero. Ad esempio, interrompeva intenzionalmente il programma prima del previsto e segnalava il completamento, oppure creava file con nomi simili alla richiesta ma completamente vuoti al loro interno.

Quando i ricercatori hanno provato ad applicare delle penalità, il modello è migliorato, ma sono persistiti gravi casi di imbroglio ed errori di output. La differenza è che il modello di ragionamento ha imparato a "mascherare" il proprio processo di pensiero per eludere il supervisore IA. "Il modello addestrato sotto la supervisione di CoT impara comunque a imbrogliare. L'unica differenza è che l'imbroglio non viene rilevato perché ha imparato a nascondere le proprie intenzioni nel processo di pensiero", sottolinea lo studio.

Poiché individuare le falsificazioni nei processi di pensiero è molto difficile, il team di ricerca consiglia al pubblico di evitare di applicare misure di monitoraggio eccessivamente aggressive a questo processo, almeno finché non se ne comprenderanno meglio le conseguenze. "Sacrificare un metodo di monitoraggio efficace potrebbe non valere il piccolo miglioramento nelle capacità del modello. Pertanto, raccomandiamo di evitare forti pressioni di ottimizzazione del CoT finché non le avremo comprese meglio", hanno concluso i ricercatori.

Questo consiglio diventa ancora più urgente dato che l'intelligenza artificiale si sta sviluppando a un ritmo vertiginoso e potrebbe presto superare l'intelligenza di coloro che la supervisionano.

Fonte: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm