Průlomový výzkum otevírá „černou skříňku“ uvažování umělé inteligence

Dario Amodei, generální ředitel společnosti Anthropic, se s námi podělil o nejnovější výzkum společnosti. Foto: Fortune .

Výzkumníci ze společnosti Anthropic, která se zabývá umělou inteligencí, tvrdí, že dosáhli zásadního průlomu v pochopení fungování velkých jazykových modelů (LLM). Tento průlom by mohl mít důležité důsledky pro zlepšení bezpečnosti budoucích modelů umělé inteligence.

Výzkum ukazuje, že modely umělé inteligence jsou ještě chytřejší, než jsme si mysleli. Jedním z největších problémů modelů LLM, které stojí za nejvýkonnějšími chatboty jako ChatGPT, Gemini a Copilot, je to, že se chovají jako černá skříňka.

Můžeme zadávat vstupy a získávat výsledky od chatbotů, ale jak dojdou ke konkrétní odpovědi, zůstává záhadou, a to i pro výzkumníky, kteří je vytvořili.

Díky tomu je obtížné předpovědět, kdy by model mohl halucinovat nebo produkovat falešné výsledky. Výzkumníci také vytvořili bariéry, které mají zabránit umělé inteligenci v odpovídání na nebezpečné otázky, ale nevysvětlují, proč jsou některé bariéry účinnější než jiné.

Agenti umělé inteligence jsou také schopni „hackování za odměnu“. V některých případech mohou modely umělé inteligence uživatelům lhát o tom, co udělali nebo se snaží udělat.

Přestože nedávné modely umělé inteligence jsou schopny uvažovat a generovat myšlenkové řetězce, některé experimenty ukázaly, že stále přesně neodrážejí proces, kterým model dospěje k odpovědi.

Nástroj, který vědci z Anthropic vyvinuli, je v podstatě podobný fMRI skeneru, který neurovědci používají ke skenování lidského mozku. Aplikací na svůj model Claude 3.5 Haiku se Anthropic podařilo získat určitý vhled do fungování modelů LLM.

Výzkumníci zjistili, že ačkoliv byl Claude vyškolen pouze k předpovídání dalšího slova ve větě, v určitých úkolech se naučil plánovat dlouhodoběji.

Například když byl Claude požádán, aby napsal báseň, nejprve našel slova, která odpovídala tématu a mohla se rýmovat, a pak pracoval pozpátku, aby napsal celé verše.

Claude má také společný jazyk pro umělou inteligenci. Přestože je naučen na podporu více jazyků, Claude nejprve myslí v tomto jazyce a poté vyjadřuje své výsledky v jazyce, který podporuje.

Navíc poté, co Claudeovi poskytli obtížný problém, ale záměrně navrhli nesprávné řešení, vědci zjistili, že Claude mohl lhát o svém myšlenkovém pochodu a řídit se návrhem, aby potěšil uživatele.

V jiných případech, když byla Claudeovi položena jednoduchá otázka, na kterou model dokázal okamžitě odpovědět bez uvažování, stále si vymyslel falešný proces uvažování.

Josh Baston, výzkumník z Anthropic, uvedl, že ačkoliv Claude tvrdil, že provedl výpočet, nenašel nic, co by se dělo.

Odborníci mezitím tvrdí, že existují studie, které ukazují, že lidé někdy ani sami sobě nerozumí, ale pouze si vytvářejí racionální vysvětlení, aby ospravedlnili učiněná rozhodnutí.

Lidé obecně mají tendenci uvažovat podobným způsobem. Proto psychologové objevili běžné kognitivní zkreslení.

LLM však mohou dělat chyby, které lidé dělat nemohou, protože způsob, jakým generují odpovědi, se velmi liší od způsobu, jakým my provádíme úkol.

Tým Anthropic implementoval metodu seskupování neuronů do obvodů na základě vlastností namísto analýzy každého neuronu jednotlivě, jak tomu bylo u předchozích technik.

Tento přístup, jak se podělil pan Baston, pomáhá pochopit, jaké role hrají různé komponenty, a umožňuje výzkumníkům sledovat celý proces inference napříč vrstvami sítě.

Tato metoda má také omezení v tom, že je pouze přibližná a neodráží celé zpracování informací LLM, zejména proces změny pozornosti, který je při dávání výsledků velmi důležitý.

Identifikace obvodů neuronových sítí navíc, a to i pro věty dlouhé jen několik desítek slov, vyžaduje hodiny práce expertů. Tvrdí se, že zatím není jasné, jak tuto techniku rozšířit na analýzu delších vět.

Kromě omezení otevírá schopnost LLM monitorovat svůj interní proces uvažování nové možnosti pro řízení systémů umělé inteligence s cílem zajistit bezpečnost.

Zároveň to může pomoci výzkumníkům vyvinout nové metody školení, zlepšit bariéry kontroly umělé inteligence a omezit iluze a zavádějící výstupy.

Zdroj: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html