Chatboti s umělou inteligencí se stávají čím dál „šílenějšími“.

Nová vlna „inferenčních“ systémů od společností jako OpenAI způsobuje, že dezinformace jsou častější. Nebezpečné je, že ani tyto společnosti nevědí proč.

ZNews•08/05/2025

V dubnu informoval bot s umělou inteligencí, který zajišťoval technickou podporu pro Cursor, rychle se rozvíjející nástroj pro programátory, některé zákazníky o změně firemní politiky. Konkrétně oznámení uvádělo, že Cursor již nesmí používat na více než jednom počítači.

Zákazníci na fórech a sociálních sítích vyjadřovali svůj hněv. Někteří dokonce zrušili své účty Cursor. Jiní však byli ještě rozzuřenější, když si uvědomili, co se stalo: robot s umělou inteligencí oznámil změnu zásad, která neexistovala.

„Takové zásady nemáme. Cursor můžete samozřejmě používat na více počítačích. Bohužel se jedná o nepřesnou reakci bota s podporou umělé inteligence,“ napsal v příspěvku na Redditu Michael Truell, generální ředitel a spoluzakladatel společnosti.

Šíření falešných zpráv je nekontrolované a nekontrolované.

Více než dva roky po vzniku ChatGPT používají technologické společnosti, kancelářští pracovníci i běžní spotřebitelé stále častěji AI boty pro řadu úkolů.

Stále však neexistuje způsob, jak zaručit, že tyto systémy generují přesné informace. Paradoxně nejnovější a nejvýkonnější technologie, známé také jako „inferenční“ systémy, od společností jako OpenAI, Google a DeepSeek, ve skutečnosti produkují více chyb.

Nesmyslná konverzace na ChatGPT, kde se uživatel ptá, zda by měl krmit svého psa cereáliemi. Foto: Reddit.

Na rozdíl od výrazně zlepšených matematických dovedností se schopnost modelů s velkými jazyky programování (LLM) pochopit pravdu stala nejistější. Je pozoruhodné, že i samotní inženýři si naprosto nevědí proč.

Podle New York Times se dnešní chatboti s umělou inteligencí spoléhají na složité matematické systémy, aby se naučili dovednosti analýzou obrovského množství číselných dat. Nedokážou však rozhodnout, co je správné a co špatné.

Odtud se objevuje fenomén „halucinace“ neboli sebevynalézavosti. Studie dokonce ukazují, že nejnovější generace LLM zažívá „halucinace“ častěji než někteří starší modelové.

Konkrétně ve své nejnovější zprávě společnost OpenAI zjistila, že model o3 byl „iluzorní“ při zodpovězení 33 % otázek v PersonQA, interním standardu společnosti pro měření přesnosti znalostí modelu o lidech.

Pro srovnání, toto číslo je dvojnásobné oproti mírě „iluze“ u předchozích modelů uvažování OpenAI, o1 a o3-mini, které činily 16 %, respektive 14,8 %. Model o4-mini si na PersonQA vedl ještě hůře a „iluze“ se u něj projevovala po 48 % doby trvání testu.

Ještě znepokojivější je, že „otec ChatGPT“ ve skutečnosti neví, proč se to děje. Konkrétně ve své technické zprávě o o3 a o4-mini OpenAI uvádí, že „je zapotřebí dalšího výzkumu, abychom pochopili, proč se ‚halucinace‘ zhoršují“ při škálování modelů uvažování.

Modely o3 a o4-mini dosahují lepších výsledků v některých oblastech, včetně programování a matematických úkolů. Protože však musí „vytvářet více než obecných tvrzení“, oba modely vedly k „přesnějším, ale také méně přesným tvrzením“.

"To nikdy nezmizí."

Místo striktního souboru pravidel definovaných lidskými inženýry používají systémy LLM matematické pravděpodobnosti k předpovědi nejlepší odpovědi. Proto vždy udělají určitý počet chyb.

„Navzdory veškerému úsilí budou modely umělé inteligence vždy podléhat iluzím. To nikdy nezmizí,“ řekl Amr Awadallah, bývalý výkonný ředitel Googlu.

Podle IBM jsou halucinace jevy, kdy velké jazykové modely (LLM) – často chatboti nebo nástroje počítačového vidění – přijímají datové vzory, které neexistují nebo jsou pro člověka nerozpoznatelné, a tím produkují bezvýznamné nebo nepřesné výsledky. Obrázek: iStock.

V podrobném dokumentu o experimentech OpenAI uvedla, že k pochopení příčiny těchto výsledků je zapotřebí dalšího výzkumu.

Podle odborníků je velmi obtížné určit, proč se systémy umělé inteligence chovají tak, jak se chovají, protože se učí z mnohem většího množství dat, než jaké lidé dokážou pochopit.

„Iluze je ze své podstaty častější v inferenčních modelech, ačkoli aktivně pracujeme na snížení míry pozorované v o3 a o4-mini. Budeme i nadále studovat iluzi napříč všemi modely, abychom zlepšili přesnost a spolehlivost,“ uvedl Gaby Raila, mluvčí OpenAI.

Testy řady nezávislých společností a výzkumníků ukazují, že míra halucinací se zvyšuje i u inferenčních modelů od společností jako Google nebo DeepSeek.

Od konce roku 2023 Awadallahova společnost Vectara monitoruje frekvenci, s jakou chatboti šíří dezinformace. Společnost těmto systémům zadala jednoduchý a snadno ověřitelný úkol: shrnout konkrétní články. I tehdy chatboti soustavně vymýšleli informace.

Konkrétně, počáteční výzkum společnosti Vectara odhadoval, že podle této hypotézy chatboti vymýšleli informace v nejméně 3 % případů a někdy až v 27 %.

Během posledního roku a půl se společnostem jako OpenAI a Google podařilo tato čísla snížit na zhruba 1 nebo 2 %. Jiné, jako například startup Anthropic ze San Francisca, se pohybují kolem 4 %.

Míra halucinací v tomto experimentu se však u systémů uvažování nadále zvyšovala. Systém uvažování R1 od DeepSeek zaznamenal halucinace o 14,3 %, zatímco o3 u OpenAI se zvýšilo o 6,8 %.

Dalším problémem je, že inferenční modely jsou navrženy tak, aby před dosažením konečné odpovědi trávily čas „přemýšlením“ o složitých problémech.

Apple v první beta verzi macOS 15.1 zahrnul výzvu, která má zabránit umělé inteligenci ve vymýšlení informací. Obrázek: Reddit/devanxd2000.

Nevýhodou však je, že při pokusu o postupné řešení problému je pravděpodobnější, že model umělé inteligence v každém kroku narazí na halucinace. A co je důležitější, chyby se mohou hromadit, protože model tráví více času přemýšlením.

Nejnovější boti zobrazují uživateli každý krok, což znamená, že uživatelé mohou vidět i každou chybu. Výzkumníci také zjistili, že v mnoha případech myšlenkový proces zobrazený chatbotem ve skutečnosti nesouvisí s konečnou odpovědí, kterou poskytuje.

„To, o čem systém říká, že uvažuje, nemusí nutně odpovídat tomu, co si ve skutečnosti myslí,“ říká Aryo Pradipta Gema, výzkumník umělé inteligence na Univerzitě v Edinburghu a přispěvatel do Anthropic.

Zdroj: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html