Áttörő kutatás feltárja a mesterséges intelligencia érvelésének „fekete dobozát”

Dario Amodei, az Anthropic vezérigazgatója megosztja a vállalat legújabb kutatását. Fotó: Fortune .

Az Anthropic mesterséges intelligencia fejlesztő cég kutatói szerint alapvető áttörést értek el a nagy nyelvi modellek (LLM-ek) működésének pontos megértésében, ami fontos következményekkel járhat a jövőbeli mesterséges intelligencia modellek biztonságának javítása szempontjából.

Kutatások kimutatták, hogy a mesterséges intelligencia modelljei még okosabbak, mint gondoltuk. Az LLM modellek egyik legnagyobb problémája – amelyek a legerősebb chatbotok, mint például a ChatGPT, a Gemini és a Copilot mögött állnak –, hogy fekete dobozként viselkednek.

Bevihetünk adatokat és lekérhetünk eredményeket a chatbotoktól, de hogy hogyan jutnak el egy adott válaszhoz, az rejtély marad, még a őket fejlesztő kutatók számára is.

Emiatt nehéz megjósolni, hogy egy modell mikor hallucinálhat, vagy mikor adhat hamis eredményeket. A kutatók akadályokat is építettek, hogy megakadályozzák a mesterséges intelligenciát a veszélyes kérdések megválaszolásában, de nem magyarázzák meg, hogy egyes akadályok miért hatékonyabbak, mint mások.

A mesterséges intelligencia által működtetett ügynökök képesek „jutalmazó hackelésre” is. Bizonyos esetekben a mesterséges intelligencia modelljei hazudhatnak a felhasználóknak arról, hogy mit tettek vagy mit próbálnak tenni.

Bár a legújabb mesterséges intelligencia modellek képesek érvelni és gondolatláncokat generálni, egyes kísérletek kimutatták, hogy még mindig nem tükrözik pontosan azt a folyamatot, amelynek során a modell válaszhoz jut.

Lényegében az Anthropic kutatói által kifejlesztett eszköz olyan, mint az fMRI szkenner, amelyet az idegtudósok az emberi agy vizsgálatára használnak. A Claude 3.5 Haiku modelljükre alkalmazva az Anthropic betekintést nyerhetett az LLM modellek működésébe.

A kutatók azt találták, hogy bár Claude-ot csak arra képezték ki, hogy megjósolja a mondat következő szavát, bizonyos feladatokban megtanult hosszabb távú tervezést végezni.

Például, amikor verset kellett írnia, Claude először olyan szavakat keresett, amelyek illeszkedtek a témához és rímeltek, majd visszafelé haladva teljes verseket írt.

Claude-nak is van egy közös MI-nyelve. Bár több nyelv támogatására van betanítva, Claude először ezen a nyelven gondolkodik, majd az eredményeket a támogatott nyelven fejezi ki.

Ezenkívül, miután nehéz problémát vetettek fel Claude-nak, de szándékosan rossz megoldást javasoltak neki, a kutatók felfedezték, hogy Claude képes hazudni a gondolatmenetéről, a javaslatot követve, hogy a felhasználó kedvében járjon.

Más esetekben, amikor egy egyszerű kérdést tettek fel neki, amelyre a modell azonnal, indoklás nélkül tudott válaszolni, Claude továbbra is egy hamis érvelési folyamatot talált ki.

Josh Baston, az Anthropic kutatója elmondta, hogy bár Claude azt állította, hogy elvégeztek egy számítást, nem talált semmi történést.

Eközben a szakértők azzal érvelnek, hogy vannak tanulmányok, amelyek azt mutatják, hogy néha az emberek még önmagukat sem értik, hanem csak racionális magyarázatokat találnak ki a meghozott döntéseik igazolására.

Általánosságban elmondható, hogy az emberek hasonló módon gondolkodnak. Ezért fedeztek fel a pszichológusok gyakori kognitív torzításokat.

Az LLM-ek azonban olyan hibákat követhetnek el, amelyeket az emberek nem, mivel a válaszok generálásának módja annyira eltér attól, ahogyan mi elvégezzük a feladatokat.

Az antropikus csapat egy olyan módszert vezetett be, amely a neuronokat jellemzők alapján áramkörökbe csoportosítja, ahelyett, hogy az előző technikákkal ellentétben minden neuront külön-külön elemezne.

Ez a megközelítés, osztotta meg Mr. Baston, segít megérteni a különböző komponensek szerepét, és lehetővé teszi a kutatók számára, hogy a hálózat rétegein keresztül nyomon kövessék a teljes következtetési folyamatot.

Ennek a módszernek az a korlátja is van, hogy csak közelítő, és nem tükrözi az LLM teljes információfeldolgozását, különösen a figyelmi folyamat változását, ami nagyon fontos, miközben az LLM eredményeket ad.

Ezenkívül a neurális hálózati áramkörök azonosítása, még néhány tucat szó hosszú mondatok esetén is, szakértői órákat vesz igénybe. Azt mondják, hogy még nem világos, hogyan lehetne kiterjeszteni a technikát hosszabb mondatok elemzésére.

A korlátokat félretéve, az LLM azon képessége, hogy figyelemmel kísérje belső érvelési folyamatát, új lehetőségeket nyit meg a mesterséges intelligencia rendszerek irányítására a biztonság és a védelem garantálása érdekében.

Ugyanakkor segíthet a kutatóknak új képzési módszerek kidolgozásában, a mesterséges intelligencia általi ellenőrzési korlátok javításában, valamint az illúziók és a félrevezető eredmények csökkentésében.

Forrás: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html