Figyelmeztetés a ChatGPT „hallucinogén” hatásáról

A két újonnan piacra dobott ChatGPT modell nagyobb gyakorisággal tartalmaz mesterséges információkat, mint az előző generáció. Fotó: Fireflies .

Mindössze két nappal a GPT-4.1 bejelentése után az OpenAI hivatalosan is piacra dobott két új modellt, az o3-at és az o4-mini-t. Mindkét modell kiváló logikai képességeket és számos erőteljes fejlesztést demonstrál.

A TechCrunch szerint azonban ez a két új modell továbbra is „hallucinációtól” vagy öntalálékonyságtól szenved. Valójában több hallucinációt mutatnak, mint az OpenAI néhány régebbi modellje.

Az IBM szerint a hallucinációk olyan jelenségek, amikor a nagy nyelvi modellek (LLM-ek) – gyakran chatbotok vagy számítógépes látást biztosító eszközök – olyan adatmintákat kapnak, amelyek nem léteznek vagy az emberek számára felismerhetetlenek, ezáltal értelmetlen vagy pontatlan eredményeket hoznak létre.

Más szóval, a felhasználók gyakran elvárják a mesterséges intelligenciától, hogy pontos eredményeket produkáljon a betanított adatok alapján. Bizonyos esetekben azonban a mesterséges intelligencia eredményei nem pontos adatokon alapulnak, ami „hamis” választ eredményez.

Legfrissebb jelentésében az OpenAI felfedezte, hogy az o3 „illuzórikus” módon válaszolt a PersonQA kérdéseinek 33%-ára, amely a vállalat belső szabványa az emberekről alkotott modellek pontosságának mérésére.

Összehasonlításképpen, ez a szám kétszerese az OpenAI korábbi érvelési modelljeinek, az o1-nek és az o3-mini-nek az „illúzió” arányának, amelyek rendre 16%, illetve 14,8% voltak. Eközben az O4-mini modell még rosszabbul teljesített a PersonQA-n, a tesztidőszak 48%-ában „illúziót” tapasztalt.

Ami még aggasztóbb, hogy a „ChatGPT atyja” valójában nem tudja, miért történik ez. Konkrétan az o3 és o4-mini technikai jelentésében az OpenAI kijelenti, hogy „további kutatásokra van szükség annak megértéséhez, hogy miért súlyosbodnak a »hallucinációk«” az érvelési modellek skálázásakor.

Az O3 és az o4-mini bizonyos területeken jobban teljesít, beleértve a programozást és a matematikai feladatokat. Mivel azonban „több állítást kell tenniük, mint általános állításokat”, mindkét modell „pontosabb állításokat, de pontatlanabb állításokat” is eredményezett.

Forrás: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html