Vietnam.vn - Nền tảng quảng bá Việt Nam

Banbrytande forskning öppnar upp AI:s resonemangs "svarta låda"

När du har skrivit in ditt kommando i AI:n och fått resultaten, är du nyfiken på hur verktyget kom fram till ditt svar?

ZNewsZNews30/03/2025

Dario Amodei, VD för Anthropic, delar med sig av företagets senaste forskning. Foto: Fortune .

Forskare på AI-företaget Anthropic säger att de har gjort ett grundläggande genombrott i att förstå exakt hur stora språkmodeller (LLM) fungerar, ett genombrott som kan få viktiga konsekvenser för att förbättra säkerheten för framtida AI-modeller.

Forskning visar att AI-modeller är ännu smartare än vi trodde. Ett av de största problemen med LLM-modeller, som ligger bakom de kraftfullaste chatbotarna som ChatGPT, Gemini och Copilot, är att de fungerar som en svart låda.

Vi kan mata in data och få resultat från chatbotar, men hur de kommer fram till ett specifikt svar förblir ett mysterium, även för forskarna som byggde dem.

Detta gör det svårt att förutsäga när en modell kan hallucinera eller ge falska resultat. Forskare har också byggt upp barriärer för att hindra AI från att besvara farliga frågor, men de förklarar inte varför vissa barriärer är mer effektiva än andra.

AI-agenter kan också utföra ”belöningshackning”. I vissa fall kan AI-modeller ljuga för användare om vad de har gjort eller försöker göra.

Även om nyare AI-modeller kan resonera och generera tankekedjor, har vissa experiment visat att de fortfarande inte korrekt återspeglar processen genom vilken modellen kommer fram till ett svar.

I grund och botten är verktyget som Anthropic-forskarna utvecklade likt den fMRI-skanner som neuroforskare använder för att skanna den mänskliga hjärnan. Genom att tillämpa den på sin Claude 3.5 Haiku-modell kunde Anthropic få en viss inblick i hur LLM-modeller fungerar.

Forskarna fann att även om Claude bara tränades i att förutsäga nästa ord i en mening, så lärde den sig i vissa uppgifter att planera mer långsiktigt.

Till exempel, när Claude ombads att skriva en dikt, brukade han först hitta ord som passade till temat och kunde rimma, och sedan arbeta baklänges för att skriva hela verser.

Claude har också ett gemensamt AI-språk. Även om det är tränat att stödja flera språk, kommer Claude först att tänka på det språket och sedan uttrycka sina resultat på vilket språk det än stöder.

Dessutom, efter att ha gett Claude ett svårt problem, men medvetet föreslagit fel lösning, upptäckte forskarna att Claude kunde ljuga om sina tankegångar och följa förslaget för att behaga användaren.

I andra fall, när Claude fick en enkel fråga som modellen kunde besvara omedelbart utan att resonera, fabricerade han ändå en falsk resonemangsprocess.

Josh Baston, en forskare på Anthropic, sa att även om Claude påstod att de hade utfört en beräkning, kunde han inte hitta något som hände.

Samtidigt menar experter att det finns studier som visar att människor ibland inte ens förstår sig själva, utan bara skapar rationella förklaringar för att rättfärdiga de beslut som fattas.

I allmänhet tenderar människor att tänka på liknande sätt. Det är därför psykologer har upptäckt vanliga kognitiva bias.

Emellertid kan juridiklärare göra misstag som människor inte kan, eftersom sättet de genererar svar på är så annorlunda från hur vi utför en uppgift.

Antropik-teamet implementerade en metod för att gruppera neuroner i kretsar baserade på funktioner istället för att analysera varje neuron individuellt som tidigare tekniker.

Denna metod, delade Baston, hjälper till att förstå vilka roller olika komponenter spelar och gör det möjligt för forskare att spåra hela inferensprocessen genom nätverkets lager.

Denna metod har också begränsningen att den endast är ungefärlig och inte återspeglar hela informationsbearbetningen av LLM, särskilt förändringen i uppmärksamhetsprocessen, vilket är mycket viktigt när LLM ger resultat.

Dessutom tar det experttimmar att identifiera neurala nätverkskretsar, även för meningar som bara är några dussin ord långa. De säger att det ännu inte är klart hur man ska utöka tekniken till att analysera längre meningar.

Bortsett från begränsningar öppnar LLM:s förmåga att övervaka sin interna resonemangsprocess nya möjligheter att kontrollera AI-system för att säkerställa säkerhet och trygghet.

Samtidigt kan det också hjälpa forskare att utveckla nya träningsmetoder, förbättra AI-kontrollbarriärer och minska illusioner och vilseledande resultat.

Källa: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Kommentar (0)

No data
No data

Arv

Figur

Företag

Näckrosor under översvämningssäsongen

Aktuella händelser

Politiskt system

Lokal

Produkt