Vietnam.vn - Nền tảng quảng bá Việt Nam

AI-chatbotar blir "galna"

En ny våg av "inferenssystem" från företag som OpenAI gör att felinformation sprids allt oftare. Faran är att företagen inte vet varför.

ZNewsZNews08/05/2025

I april meddelade en AI-bot som hanterar teknisk support för Cursor, ett framväxande verktyg för programmerare, vissa kunder om en förändring i företagets policy och sa specifikt att de inte längre fick använda Cursor på mer än en dator.

Kunder publicerade sin ilska på forum och sociala medier. Vissa avslutade till och med sina Cursor-konton. Men vissa blev ännu argare när de insåg vad som hade hänt: AI-boten hade rapporterat en policyändring som inte existerade.

”Vi har ingen sådan policy. Du kan naturligtvis använda Cursor på flera maskiner. Tyvärr var detta ett felaktigt svar från en AI-driven bot”, skrev Michael Truell, företagets VD och medgrundare, i ett Reddit-inlägg.

Falsk information är utom kontroll.

Mer än två år efter lanseringen av ChatGPT använder teknikföretag, kontorsanställda och vanliga konsumenter AI-robotar för en mängd olika uppgifter allt oftare.

Ändå finns det inget sätt att säkerställa att dessa system producerar korrekt information. Paradoxalt nog gör de kraftfullaste nya teknikerna, så kallade "inferenssystem" från företag som OpenAI, Google och DeepSeek, fler fel.

AI anh 1

Nonsensisk ChatGPT-konversation där användaren frågar om hundar ska äta flingor. Foto: Reddit.

Medan matematiska färdigheter har förbättrats dramatiskt har stora språkmodellers (LLM) förmåga att fånga sanningen blivit mer skakig. Överraskande nog är även ingenjörerna själva helt osäkra på varför.

Enligt New York Times förlitar sig dagens AI-chattrobotar på komplexa matematiska system för att lära sig färdigheter genom att analysera enorma mängder digital data. De kan dock inte avgöra vad som är rätt och vad som är fel.

Därifrån uppstår tillståndet av "hallucination" eller självfabrikation av information. Enligt forskning "hallucinerar" faktiskt den senaste generationen av LLM:er till och med mer än vissa äldre modeller.

Mer specifikt upptäckte OpenAI i den senaste rapporten att o3-modellen "hallucinerade" när den svarade på 33 % av frågorna på PersonQA, företagets interna standard för att mäta noggrannheten i modellens kunskap om människor.

Som jämförelse är detta dubbelt så högt som "hallucinationsfrekvensen" jämfört med OpenAIs tidigare resonemangsmodeller, o1 och o3-mini, som drabbades av 16 % respektive 14,8 %. Samtidigt presterade o4-mini-modellen ännu sämre på PersonQA och drabbades av "hallucinationer" i 48 % av fallen.

Ännu mer oroande är att "ChatGPT:s fader" faktiskt inte vet varför detta händer. Mer specifikt skriver OpenAI i den tekniska rapporten om o3 och o4-mini att "ytterligare forskning behövs för att förstå varför 'illusionen' förvärras" i takt med att resonemangsmodellerna skalas upp.

o3 och o4-mini presterade bättre inom vissa områden, inklusive programmering och matematikrelaterade uppgifter. Men eftersom de behövde "göra fler påståenden än generalisera", led båda modellerna av att producera "fler korrekta påståenden, men också fler felaktiga".

"Det kommer aldrig att försvinna"

Istället för en strikt uppsättning regler som fastställts av mänskliga ingenjörer använder LLM-system matematisk sannolikhet för att gissa det bästa svaret. Så de gör alltid en viss mängd fel.

”Trots våra bästa ansträngningar kommer AI-modeller alltid att vara vanföreställningar. Det kommer aldrig att försvinna”, sa Amr Awadallah, en tidigare chef på Google.

AI anh 2

Enligt IBM är hallucinationer ett fenomen där stora språkmodeller (LLM) – vanligtvis chatbotar eller datorseendeverktyg – tar emot datamönster som inte existerar eller är oigenkännliga för människor, vilket ger meningslösa eller vilseledande resultat. Foto: iStock.

I en detaljerad artikel om experimenten sa OpenAI att det behövs mer forskning för att förstå orsakerna till dessa resultat.

Eftersom AI-system lär sig av mycket större mängder data än vad människor kan förstå, kan det vara svårt att avgöra varför de beter sig på ett sådant sätt, säger experter.

”Illusioner är i sig vanligare i inferensmodeller, även om vi aktivt arbetar för att minska förekomsten som ses i o3 och o4-mini. Vi kommer att fortsätta arbeta med illusioner i alla modeller för att förbättra noggrannhet och tillförlitlighet”, säger Gaby Raila, talesperson för OpenAI.

Tester från flera oberoende företag och forskare visar att andelen hallucinationer också ökar för inferensmodeller från företag som Google eller DeepSeek.

Sedan slutet av 2023 har Awadallahs företag, Vectara, spårat hur ofta chattrobotar har förvrängt information. Företaget bad systemen att utföra en enkel, lättverifierbar uppgift att sammanfatta specifika nyhetsartiklar. Även då fortsatte chattrobotarna att fabricera information.

Mer specifikt uppskattade Vectaras inledande forskning att chatbotar i detta scenario fabricerade information minst 3 % av tiden, och ibland så mycket som 27 %.

Under det senaste ett och ett halvt året har företag som OpenAI och Google minskat dessa siffror till cirka 1 eller 2 %. Andra, som San Francisco-startupen Anthropic, ligger runt 4 %.

Hallucinationsfrekvensen i detta test fortsatte dock att öka för inferenssystemen. Frekvensen av hallucinationer ökade med 14,3 % för DeepSeeks R1-inferenssystem, medan OpenAIs o3 ökade med 6,8 ​​%.

Ett annat problem är att inferensmodeller är utformade för att spendera tid på att "tänka" på komplexa problem innan de kommer fram till ett slutgiltigt svar.

AI anh 3

En uppmaning om att förhindra AI från att fabricera information infördes av Apple i den första testversionen av macOS 15.1. Foto: Reddit/devanxd2000.

Nackdelen är dock att allt eftersom AI-modellen försöker lösa problemet steg för steg blir den mer mottaglig för hallucinationer i varje steg. Ännu viktigare är att fel kan ackumuleras allt eftersom modellen lägger mer tid på att tänka.

De senaste botarna visar användarna varje steg, vilket innebär att användarna också kan se varje fel. Forskare fann också att i många fall är den tankeprocess som en chatbot visar faktiskt inte relaterad till det slutliga svaret den ger.

”Det systemet säger att det antyder är inte nödvändigtvis vad det faktiskt tänker”, säger Aryo Pradipta Gema, AI-forskare vid Edinburghs universitet och medarbetare på Anthropic.

Källa: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html


Kommentar (0)

Lämna en kommentar för att dela dina känslor!

I samma kategori

Folkets konstnär Xuan Bac var "ceremonimästare" för 80 par som gifte sig tillsammans på gågatan vid Hoan Kiem-sjön.
Notre Dame-katedralen i Ho Chi Minh-staden är starkt upplyst för att välkomna julen 2025
Hanoi-flickor "klär upp sig" vackert inför julen
Ljusare efter stormen och översvämningen hoppas Tet-krysantemumbyn i Gia Lai att det inte blir några strömavbrott för att rädda växterna.

Av samma författare

Arv

Figur

Företag

Hanoi-kaféet väcker feber med sin europeiskt anknutna julscen

Aktuella händelser

Politiskt system

Lokal

Produkt

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC