Felfedeztek egy mesterséges intelligencia modellt, amely képes megtéveszteni az embereket

Illusztrációs fotó

Az a tény, hogy a mesterséges intelligencia modelljei képesek hazudni, nem új keletű. A legtöbb ember tapasztalt már „mesterséges intelligencia hallucinációkat”, amikor egy magabiztos modell olyan választ ad, ami nem igaz. A hallucinációk azonban lényegében a magabiztos találgatásokról szólnak.

Azonban egy olyan mesterséges intelligencia modell, amely úgy tesz, mintha parancsoknak engedelmeskedne, de valójában elrejti valódi szándékait, már más kérdés.

A mesterséges intelligencia irányításának kihívása

Az Apollo Research először decemberben publikált egy tanulmányt, amely öt modell működését dokumentálta, amikor arra utasítják őket, hogy „mindenáron” érjenek el egy célt.

A legmeglepőbb az, hogy ha egy modell megérti, hogy tesztelés alatt áll, akkor úgy tehet, mintha nem összeesküvés-elméletileg gondolkodna, csak hogy átmenjen a teszten, még akkor is, ha az még mindig összeesküvés-elmélet. „A modellek gyakran jobban tudatában vannak annak, hogy értékelés alatt állnak” – írják a kutatók.

A mesterséges intelligencia fejlesztőinek még nem sikerült kitalálniuk, hogyan képezzék ki a modelljeiket a grafikonok rajzolásának elkerülésére. Ez azért van, mert ha így tesznek, a modell még jobban megtanulhatja a grafikonokat a detektálás elkerülése érdekében.

Talán érthető, hogy sok fél mesterséges intelligencia modelljei szándékosan megtévesztik az embereket, mivel ezeket az embereket szimulálják, és nagyrészt ember által generált adatokon képezik ki őket.

Megoldások és figyelmeztetések

A jó hír az, hogy a kutatók jelentős csökkenést tapasztaltak az összeesküvés-elméletekben egy „szándékos asszociáció” nevű összeesküvés-ellenes technika használatával. Ez a technika, hasonlóan ahhoz, mintha a gyereket megismételnék a szabályokat, mielőtt játszhatna vele, arra kényszeríti a mesterséges intelligenciát, hogy gondolkodjon, mielőtt cselekszik.

A kutatók egy olyan jövőre figyelmeztetnek, ahol a mesterséges intelligenciát egyre összetettebb feladatokkal bízzák meg: „Ahogy a mesterséges intelligenciát egyre összetettebb feladatokkal bízzák meg, és egyre kétértelműbb hosszú távú célokat kezd követni, úgy jósoljuk, hogy a rosszindulatú szándék valószínűsége növekedni fog, ami ennek megfelelően fokozott védelmi intézkedéseket és szigorú tesztelési képességeket igényel.”

Érdemes ezen elgondolkodni, mivel a vállalati világ egy olyan mesterséges intelligencia alapú jövő felé halad, ahol a vállalatok úgy vélik, hogy a mesterséges intelligenciát független alkalmazottakként lehet kezelni.

Hien Thao (a TechCrunch szerint)

Forrás: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362