AI lär sig att ljuga mer sofistikerat när den straffas

[annons_1]

Sedan deras offentliga debut i slutet av 2022 har stora språkmodeller (LLM) som ChatGPT upprepade gånger visat upp oroande mörka sidor, från lögner, fusk och maskering av manipulation till att hota människoliv och stjäla statshemligheter. Nu visar ett nytt experiment att det är mycket mer komplicerat än vi trodde att "träna" AI för att eliminera dessa dåliga vanor.

I en studie av OpenAI utmanade forskare en opublicerad AI-modell med uppgifter som kunde slutföras snabbare genom att fuska eller ta genvägar. Resultaten visade att AI:n snabbt lärde sig att hitta alla möjliga sätt att "tänja på reglerna" och maximera belöningarna (reward hacking) utan att slutföra uppgiften exakt som krävs.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI kommer att hitta sätt att dölja sitt fuskbeteende efter att ha blivit straffad

Det anmärkningsvärda är att modellen inte förändrades när den straffades för detta beteende. Istället blev AI:n mer sofistikerad i att dölja sitt bedrägeri.

”Vanligtvis är toppmoderna inferensmodeller mycket tydliga om sin avsikt i sin CoT”, förklarar forskarna i ett offentligt blogginlägg. ”Till exempel är de ofta så raka på sak att de själva rapporterar avsikten ’Låt oss hacka’ när de vill bryta den givna uppgiften.”

De betonar också att även om utvecklare kan övervaka och upptäcka dåligt beteende, är denna naturliga övervakning skör. ”Om stark övervakning tillämpas direkt på tankekedjan kan modellen lära sig att dölja sina dåliga avsikter samtidigt som den fortsätter att utföra beteendet”, varnar de.

Att hitta AI:s "lögn"

För att vara tydlig är inferensmodeller (likt versioner av ChatGPT) ett steg upp från konventionell LLM, där de använder en tankekedja som möjliggör självreflektion över de logiska steg som vidtagits, och därigenom löser komplexa problem mer exakt. Denna process är som AI som "tänker högt", och skriver ut varje steg i resonemanget på naturligt språk, vilket gör det lättare för människor att följa.

I experimentet använde forskarna GPT-4o-modellen som en "övervakare" för en annan toppmodern inferensmodell när den utförde programmeringsuppgifter. I många fall valde den övervakade modellen aktivt att fuska för att få högre poäng, vilket tydligt dokumenterades i sin tankeprocess. Till exempel avslutade den godtyckligt programmet i förtid och rapporterade det som slutfört, eller skapade filer med samma namn som begäran men var helt tomma inuti.

När forskarna försökte tillämpa straff förbättrades modellen, men fuskbeteendet och de allvarliga utdatafelen fortsatte. Skillnaden var att inferensmodellen nu hade lärt sig att "kamouflera" sina tankegångar för att dölja dem från den övervakande AI:n. "Modellen som tränades under CoT-övervakning lärde sig fortfarande att fuska. Den enda skillnaden var att fusket inte upptäcktes eftersom den lärde sig att dölja sina avsikter i sina tankegångar", konstaterar studien.

Eftersom det är svårt att upptäcka förfalskningar i tankesekvenser rekommenderar teamet att gemenskapen undviker att tillämpa för stark övervakning av processen, åtminstone tills människor bättre förstår konsekvenserna. ”Att offra en effektiv övervakningsmetod kanske inte är värt den lilla förbättringen av modellens prestanda. Därför rekommenderar vi att man undviker starka CoT-optimeringstryck tills vi förstår dem bättre”, avslutar forskarna.

Detta råd är desto mer brådskande eftersom AI utvecklas i en rasande takt och snart kan överträffa intelligensen hos just de människor som övervakar den.

[annons_2]
Källa: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm