
Áprilisban egy mesterséges intelligenciával működő bot, amely a Cursor, egy programozóknak szánt újonnan megjelenő eszköz technikai támogatását végzi, értesített néhány ügyfelet a vállalati szabályzat változásáról, konkrétan kijelentve, hogy a Cursort többé nem használhatják egynél több számítógépen.
Az ügyfelek fórumokon és közösségi médiában tették közzé dühüket. Néhányan még a Cursor-fiókjukat is lemondták. De néhányan még dühösebbek voltak, amikor rájöttek, mi történt: a mesterséges intelligencia bot egy nem létező szabályzatváltozást jelentett.
„Nincs ilyen szabályzatunk. Természetesen a Cursort több gépen is használhatod. Sajnos ez egy helytelen válasz volt egy mesterséges intelligencia által vezérelt bottól” – írta Michael Truell, a cég vezérigazgatója és társalapítója egy Reddit-bejegyzésben.
A hamis információk kicsúsztak az irányítás alól.
Több mint két évvel a ChatGPT indulása után a tech cégek, irodai dolgozók és a mindennapi fogyasztók egyre gyakrabban használnak mesterséges intelligencia alapú botokat különféle feladatokhoz.
Mégsem lehet biztosítani, hogy ezek a rendszerek pontos információkat állítsanak elő. Paradox módon a legerősebb új technológiák, az olyan cégek által fejlesztett „következtető” rendszerek, mint az OpenAI, a Google és a DeepSeek, több hibát vétenek.
![]() |
Értelmetlen ChatGPT beszélgetés, ahol a felhasználó azt kérdezi, hogy a kutyáknak kellene-e gabonapelyhet enniük. Fotó: Reddit. |
Miközben a matematikai készségek drámaian fejlődtek, a nagy nyelvi modellek (LLM-ek) igazságmegragadására való képessége bizonytalanabbá vált. Meglepő módon még maguk a mérnökök sem teljesen világosak, hogy miért.
A New York Times szerint a mai mesterséges intelligencia alapú chatbotok komplex matematikai rendszerekre támaszkodnak, hogy hatalmas mennyiségű digitális adat elemzésével tanuljanak meg készségeket. Azonban nem tudják eldönteni, mi a helyes és mi a helytelen.
Innentől kezdve megjelenik a „hallucináció” vagy az információ önfabrikálásának állapota. Sőt, kutatások szerint a legújabb generációs LLM-ek még jobban „hallucinálnak”, mint egyes régebbi modellek.
Konkrétan a legfrissebb jelentésben az OpenAI felfedezte, hogy az o3 modell „hallucinál”, amikor a PersonQA kérdéseinek 33%-ára válaszolt, ami a vállalat belső szabványa, amely a modell emberekről szóló tudásának pontosságát méri.
Összehasonlításképpen, ez kétszerese az OpenAI korábbi érvelési modelljeinek, az o1-nek és az o3-mini-nek a „hallucinációs” arányához képest, amelyek 16%, illetve 14,8%-ot szenvedtek el. Eközben az o4-mini modell még rosszabbul teljesített a PersonQA-n, az esetek 48%-ában „hallucinációkat” tapasztalt.
Ami még aggasztóbb, hogy a „ChatGPT atyja” valójában nem tudja, miért történik ez. Pontosabban, az o3 és o4-mini technikai jelentésében az OpenAI azt írja, hogy „további kutatásokra van szükség annak megértéséhez, hogy miért súlyosbodik az „illúzió””, ahogy az érvelési modellek skálázódnak.
Az o3 és az o4-mini jobban teljesített bizonyos területeken, beleértve a programozást és a matematikával kapcsolatos feladatokat. Mivel azonban „több állítást kellett tenniük, mint általánosítaniuk”, mindkét modell „több helyes, de több helytelen állítást” produkált.
"Ez sosem fog elmúlni"
Az emberi mérnökök által meghatározott szigorú szabályrendszer helyett az LLM rendszerek matematikai valószínűséget használnak a legjobb válasz kitalálására. Így mindig vétenek valamennyi hibát.
„Legjobb erőfeszítéseink ellenére a mesterséges intelligencia modelljei mindig is téveszmék lesznek. Ez soha nem fog eltűnni” – mondta Amr Awadallah, a Google korábbi vezetője.
![]() |
Az IBM szerint a hallucinációk olyan jelenség, amikor a nagy nyelvi modellek (LLM-ek) – jellemzően chatbotok vagy számítógépes látást biztosító eszközök – olyan adatmintákat kapnak, amelyek nem léteznek vagy az emberek számára felismerhetetlenek, ezáltal értelmetlen vagy félrevezető eredményeket hoznak létre. Fotó: iStock. |
A kísérletekről szóló részletes tanulmányban az OpenAI azt nyilatkozta, hogy további kutatásokra van szükség az eredmények okainak megértéséhez.
Mivel a mesterséges intelligencia által működtetett rendszerek sokkal nagyobb mennyiségű adatból tanulnak, mint amennyit az emberek képesek megérteni, nehéz lehet meghatározni, hogy miért viselkednek így, mondják a szakértők.
„Az illúziók eredendően gyakoribbak a következtetési modellekben, bár aktívan dolgozunk az o3 és o4-mini modellekben megfigyelt előfordulásuk csökkentésén. Továbbra is dolgozni fogunk az illúziókon minden modellben a pontosság és a megbízhatóság javítása érdekében” – mondta Gaby Raila, az OpenAI szóvivője.
Több független vállalat és kutató tesztjei azt mutatják, hogy a hallucinációk aránya olyan cégek következtetési modelljei esetében is növekszik, mint a Google vagy a DeepSeek.
2023 vége óta Awadallah cége, a Vectara, nyomon követi, hogy a chatbotok milyen gyakran állítanak félre információkat. A cég arra kérte a rendszereket, hogy végezzenek el egy egyszerű, könnyen ellenőrizhető feladatot: összegezzék a konkrét híreket. Még akkor is, a chatbotok továbbra is kitartottak az információk meghamisítása mellett.
Pontosabban, a Vectara kezdeti kutatása becslése szerint ebben a forgatókönyvben a chatbotok az esetek legalább 3%-ában, néha pedig akár 27%-ában is gyártottak információkat.
Az elmúlt másfél évben olyan cégek, mint az OpenAI és a Google, ezeket a számokat 1-2% körülire csökkentették. Mások, mint például a San Franciscó-i startup, az Anthropic, 4% körül mozognak.
A hallucinációk gyakorisága azonban ebben a tesztben tovább nőtt a következtető rendszerek esetében. A DeepSeek R1 következtető rendszerében a hallucinációk gyakorisága 14,3%-kal nőtt, míg az OpenAI o3 rendszerében 6,8%-kal.
Egy másik probléma, hogy a következtetési modellek úgy vannak kialakítva, hogy a végső válasz meghozatala előtt időt töltsenek az összetett problémák „gondolkodásával”.
![]() |
Az Apple egy figyelmeztetést illesztett be a macOS 15.1 első tesztverziójába, amely megakadályozza a mesterséges intelligencia általi információhamisítást. Fotó: Reddit/devanxd2000. |
A hátránya azonban az, hogy ahogy a mesterséges intelligencia modellje lépésről lépésre próbálja megoldani a problémát, minden egyes lépésnél fogékonyabbá válik a hallucinációkra. Ami még fontosabb, a hibák felhalmozódhatnak, ahogy a modell egyre több időt tölt gondolkodással.
A legújabb botok minden egyes lépést megmutatnak a felhasználóknak, ami azt jelenti, hogy a felhasználók az összes hibát is láthatják. A kutatók azt is megállapították, hogy sok esetben a chatbot által megjelenített gondolkodási folyamat valójában nincs összefüggésben a végső válasszal.
„Amit a rendszer állítása szerint következtet, nem feltétlenül az, amit valójában gondol” – mondja Aryo Pradipta Gema, az Edinburgh-i Egyetem mesterséges intelligencia kutatója és az Anthropic munkatársa.
Forrás: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Hozzászólás (0)