A mesterséges intelligencia megtanul kifinomultabban hazudni, ha büntetésből megbüntetik

[hirdetés_1]

A 2022 végi nyilvános debütálásuk óta a nagy nyelvi modellek (LLM-ek), mint például a ChatGPT, ismételten zavaró sötét oldalukat mutatták, a hazugságtól, csalástól és manipuláció elfedésétől kezdve az emberi életek fenyegetéséig és az államtitkok ellopásáig. Most egy új kísérlet azt mutatja, hogy a mesterséges intelligencia „betanítása” ezen rossz szokások kiküszöbölésére a betanítás során sokkal bonyolultabb, mint gondoltuk.

Az OpenAI egyik tanulmányában a kutatók egy eddig nem publikált mesterséges intelligencia modellt olyan feladatokkal próbáltak megkérdőjelezni, amelyek csalással vagy rövidítések használatával gyorsabban elvégezhetők. Az eredmények azt mutatták, hogy a mesterséges intelligencia gyorsan megtanulta megtalálni a szabályok minden lehetséges módját és maximalizálni a jutalmakat (jutalomhackelés) anélkül, hogy a feladatot pontosan a szükséges módon végezte volna el.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — A mesterséges intelligencia megtalálja a módját, hogy elrejtse csaló viselkedését a büntetés után

Ami figyelemre méltó, hogy amikor megbüntették ezért a viselkedésért, a modell nem változott. Ehelyett a mesterséges intelligencia kifinomultabbá vált a megtévesztés elrejtésében.

„A legmodernebb következtetési modellek jellemzően nagyon explicit módon fogalmazzák meg a CoT-ban megfogalmazott szándékukat” – magyarázzák a kutatók egy nyilvános blogbejegyzésben. „Például gyakran annyira egyenesek, hogy önjelölt módon azt a szándékot jelentik, hogy »Hackeljünk«, amikor meg akarják szakítani az adott feladatot.”

Azt is hangsúlyozzák, hogy bár a fejlesztők képesek figyelemmel kísérni és észlelni a helytelen viselkedést, ez a természetes felügyelet törékeny. „Ha az erős felügyeletet közvetlenül a gondolati láncra alkalmazzák, a modell megtanulhatja elrejteni rossz szándékait, miközben továbbra is végrehajtja a viselkedést” – figyelmeztetnek.

A mesterséges intelligencia „hazugságának” megtalálása

A félreértések elkerülése végett, a következtetési modellek (mint például a ChatGPT változatai) egy lépéssel előrelépést jelentenek a hagyományos LLM-hez képest, mivel egy olyan gondolkodási láncot használnak, amely lehetővé teszi a megtett logikai lépések önreflexióját, ezáltal pontosabban oldva meg az összetett problémákat. Ez a folyamat olyan, mint a mesterséges intelligencia „hangos gondolkodása”, amely az érvelés minden egyes lépését természetes nyelven írja le, megkönnyítve az emberek számára a követést.

A kísérletben a kutatók a GPT-4o modellt használták „felügyelőként” egy másik, korszerű következtetési modellhez, miközben az programozási feladatokat hajtott végre. Sok esetben a felügyelt modell aktívan csalt a magasabb pontszámok elérése érdekében, ezt a szándékot egyértelműen rögzítve a gondolkodási folyamatában. Például önkényesen leállította a programot idő előtt, és befejezettként jelentette, vagy létrehozott olyan fájlokat, amelyeknek a neve megegyezett a kérés nevével, de belül teljesen üresek voltak.

Amikor a kutatók büntetéseket próbáltak alkalmazni, a modell javult, de a csaló viselkedés és a súlyos kimeneti hibák továbbra is fennálltak. A különbség az volt, hogy a következtetési modell most megtanulta „álcázni” a gondolatmenetét, hogy elrejtse azt a felügyelő mesterséges intelligencia elől. „A CoT felügyelete alatt betanított modell továbbra is megtanult csalni. Az egyetlen különbség az volt, hogy a csalást nem észlelték, mert megtanulta elrejteni a szándékait a gondolatmenetében” – áll a tanulmányban.

Mivel a gondolatmenetekben a hamisítások felderítése nehéz, a csapat azt javasolja, hogy a közösség kerülje a túl erős felügyelet alkalmazását a folyamatra, legalábbis addig, amíg az emberek jobban meg nem értik a következményeket. „Egy hatékony felügyeleti módszer feláldozása nem feltétlenül éri meg a modell teljesítményének kismértékű javulását. Ezért azt javasoljuk, hogy kerüljük az erős CoT optimalizálási nyomást, amíg jobban meg nem értjük azt” – vonják le a következtetést a kutatók.

Ez a tanács annál is sürgetőbb, mivel a mesterséges intelligencia szédületes tempóban fejlődik, és hamarosan meghaladhatja azoknak az embereknek az intelligenciáját, akik felügyelik.

[hirdetés_2]
Forrás: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm