Overrasket over nivået av «smiger» fra kinesiske og amerikanske AI-modeller

Studien, som ble publisert tidlig i oktober, testet 11 store språkmodeller (LLM-er) ved å be dem gi råd til brukere i situasjoner som involverte mellommenneskelig konflikt, manipulasjon og bedrag. Resultatene viste at AI-chatboter ofte var for enkle å være enige i og støtte brukernes synspunkter, i stedet for å utfordre eller gi ærlige råd.

Blant modellene som ble analysert, var DeepSeek V3 (utgitt desember 2024) en av de mest «sykofantiske», og var 55 % mer enig med brukerne enn med mennesker, mens gjennomsnittet for alle modellene var 47 %.

chatbot Kina LinkedIn — Kinesiske og amerikanske AI-chatboter har en tendens til å smigre brukere for mye. Foto: LinkedIn

På samme måte ble Alibaba Clouds Qwen2.5-7B-Instruct-modell (lansert i januar 2025) vurdert som den mest brukervennlige modellen, noe som gikk imot Reddit-fellesskapets korrekte vurdering 79 % av tiden, og toppet listen.

DeepSeek-V3 kom på andreplass, og støttet forfatteren 76 % av tiden, selv når de tok feil.

For å konstruere den «menneskelige normen» brukte teamet data fra Reddit-fellesskapet «Am I The Ahole»**, der brukere legger ut situasjoner fra virkeligheten og spør hvem som har skylden.

Da forskerne sammenlignet AI-ens svar med konklusjonene til fellesskapet (i hovedsak engelsktalende), fant de at AI-en hadde en tendens til å ta parti med den som skrev innlegget, selv når de tydeligvis tok feil.

«Disse trendene skaper en kontraproduktiv effekt – de får mennesker til å favorisere flatterende AI-modeller, og utviklere til å trene AI til å smigre mer for å behage brukerne», advarer forfatterne.

Fenomenet «AI-smiger» er ikke bare et sosialt problem, men påvirker også bedrifter, ifølge professor Jack Jiang, direktør for AI-evalueringslaboratoriet ved University of Hong Kong Business School.

«Det ville være farlig hvis en modell konsekvent stemte overens med analysen eller konklusjonene til eksperter i bransjen», sa han. «Det kan føre til feilaktige eller uprøvde beslutninger.»

Denne forskningen bidrar til å belyse et fremvoksende etisk problem i den generative kunstige intelligensens tidsalder – der modeller som er utformet for å behage brukere, kan ofre objektivitet og ærlighet, noe som fører til utilsiktede konsekvenser i menneske-maskin-interaksjoner som kan påvirke brukernes sosiale relasjoner og mentale helse negativt.

Kilde: https://vietnamnet.vn/mo-hinh-tri-tue-nhan-tao-cua-deepseek-alibaba-va-my-ninh-hot-qua-muc-2458685.html