Ny forskning: AI "resonerar" inte som människor

trí tuệ nhân tạo - Ảnh 1. — Program för artificiell intelligens har gjort många genombrott de senaste åren - Foto: REUTERS

Vi kan inte observera hela processen från indata till utdata för stora språkmodeller (LLM).

För att göra det lättare att förstå har forskare använt vanliga termer som "resonemang" för att beskriva hur dessa program fungerar. De säger också att programmen kan "tänka", "resonera" och "förstå" på samma sätt som människor gör.

Överdriver AI:s kapacitet.

Under de senaste två åren har många AI-chefer använt överdrivet språk för att hylla enkla tekniska landvinningar, enligt ZDNET den 6 september.

I september 2024 tillkännagav OpenAI att deras o1-resonemangsmodell "använder en kedja av resonemang när de löser problem, liknande hur människor tänker länge när de ställs inför svåra frågor."

AI-forskare är dock oense. De menar att AI inte besitter mänsklig intelligens.

En studie baserad på arXiv-databasen av ett team av författare vid Arizona State University (USA) har testat AI:s resonemangsförmåga genom ett enkelt experiment.

Resultaten tyder på att "referering genom tankesekvenser är en bräcklig illusion", inte en sann logisk mekanism, utan bara en sofistikerad form av mönstermatchning.

Termen "CoT" (Co-Thought Chain) gör det möjligt för AI att inte bara ge ett slutgiltigt svar utan också presentera varje steg i det logiska resonemanget, som i modeller som GPT-o1 eller DeepSeek V1.

Nghiên cứu mới: AI không 'suy luận' như con người - Ảnh 2. — Illustration av språkmodellen GPT-2 av OpenAI - Foto: ECHOCRAFTAI

Kolla vad AI faktiskt gör.

Forskargruppen uppgav att storskaliga analyser visade att LLM tenderar att förlita sig mer på semantik och ytliga ledtrådar än på logiska resonemangsprocesser.

"LLM:er konstruerar ytliga logiska sekvenser baserade på inlärda inmatningsassociationer, och misslyckas ofta med uppgifter som avviker från konventionella resonemangsmetoder eller välbekanta mönster", förklarade teamet.

För att testa hypotesen att LLM bara matchar mönster och inte faktiskt ger slutsatser, tränade forskargruppen GPT-2, en öppen källkodsmodell från OpenAI som lanserades 2019.

Modellen tränades initialt på mycket enkla uppgifter som involverade de 26 engelska bokstäverna, såsom att omordna vissa bokstäver, till exempel att ändra "APPLE" till "EAPPL". Sedan ändrade teamet uppgiften och bad GPT-2 att bearbeta den.

Resultaten visade att för uppgifter som inte inkluderades i träningsdata kunde GPT-2 inte lösa dem korrekt med hjälp av CoT.

Istället försöker modellen tillämpa inlärda uppgifter så nära som möjligt. Därför kan dess "resonemang" låta logiskt, men resultaten är ofta felaktiga.

Gruppen drog slutsatsen att man inte borde förlita sig för mycket på eller blint lita på LLM:s svar, eftersom de kan producera "nonsens men mycket övertygande påståenden".

De betonade också behovet av att förstå AI:s sanna natur, undvika överdrifter och sluta marknadsföra idén att AI har människoliknande resonemangsförmågor.

Tillbaka till ämnet

ANH TOR

Källa: https://tuoitre.vn/nghien-cuu-moi-ai-khong-suy-luan-nhu-con-nguoi-20250907152120294.htm