Dario Amodei, administrerende direktør i Anthropic, deler selskapets nyeste forskning. Foto: Fortune . |
Forskere ved AI-selskapet Anthropic sier de har gjort et grunnleggende gjennombrudd i å forstå nøyaktig hvordan store språkmodeller (LLM-er) fungerer, et gjennombrudd som kan ha viktige implikasjoner for å forbedre sikkerheten til fremtidige AI-modeller.
Forskning viser at AI-modeller er enda smartere enn vi trodde. Et av de største problemene med LLM-modeller, som ligger bak de kraftigste chatbotene som ChatGPT, Gemini og Copilot, er at de fungerer som en svart boks.
Vi kan legge inn inndata og få resultater fra chatboter, men hvordan de kommer opp med et spesifikt svar forblir et mysterium, selv for forskerne som bygde dem.
Dette gjør det vanskelig å forutsi når en modell kan hallusinere eller produsere falske resultater. Forskere har også bygd barrierer for å hindre AI i å svare på farlige spørsmål, men de forklarer ikke hvorfor noen barrierer er mer effektive enn andre.
AI-agenter er også i stand til å «belønne hacking». I noen tilfeller kan AI-modeller lyve til brukere om hva de har gjort eller prøver å gjøre.
Selv om nyere AI-modeller er i stand til å resonnere og generere tankekjeder, har noen eksperimenter vist at de fortsatt ikke nøyaktig gjenspeiler prosessen som modellen bruker for å komme frem til et svar.
I hovedsak er verktøyet som Anthropic-forskerne utviklet likt fMRI-skanneren nevroforskere bruker til å skanne den menneskelige hjernen. Ved å bruke den på Claude 3.5 Haiku-modellen sin, kunne Anthropic få et visst innblikk i hvordan LLM-modeller fungerer.
Forskerne fant ut at selv om Claude bare var trent til å forutsi det neste ordet i en setning, lærte den i visse oppgaver å planlegge mer langsiktig.
For eksempel, når Claude ble bedt om å skrive et dikt, ville han først finne ord som passet til temaet og kunne rime, og deretter jobbe seg baklengs for å skrive hele vers.
Claude har også et felles AI-språk. Selv om det er trent til å støtte flere språk, vil Claude først tenke på det språket, og deretter uttrykke resultatene på hvilket som helst språk det støtter.
I tillegg, etter å ha gitt Claude et vanskelig problem, men bevisst foreslått feil løsning, oppdaget forskerne at Claude kunne lyve om tankerekken sin, ved å følge forslaget for å behage brukeren.
I andre tilfeller, når Claude ble stilt et enkelt spørsmål som modellen kunne svare på umiddelbart uten å resonnere, fabrikerte han likevel en falsk resonneringsprosess.
Josh Baston, en forsker ved Anthropic, sa at selv om Claude hevdet at de hadde utført en beregning, kunne han ikke finne noe som skjedde.
I mellomtiden hevder eksperter at det finnes studier som viser at folk noen ganger ikke engang forstår seg selv, men bare lager rasjonelle forklaringer for å rettferdiggjøre beslutningene som tas.
Generelt sett har folk en tendens til å tenke på lignende måter. Det er derfor psykologer har oppdaget vanlige kognitive skjevheter.
Imidlertid kan LLM-er gjøre feil som mennesker ikke kan, fordi måten de genererer svar på er så forskjellig fra måten vi utfører en oppgave på.
Det antropiske teamet implementerte en metode for å gruppere nevroner i kretser basert på funksjoner i stedet for å analysere hver nevron individuelt som tidligere teknikker.
Denne tilnærmingen, delte Baston, bidrar til å forstå hvilke roller ulike komponenter spiller, og lar forskere spore hele slutningsprosessen gjennom lagene i nettverket.
Denne metoden har også den begrensningen at den bare er omtrentlig og ikke gjenspeiler hele informasjonsbehandlingen av LLM, spesielt endringen i oppmerksomhetsprosessen, noe som er svært viktig mens LLM gir resultater.
I tillegg tar det en eksperttime å identifisere nevrale nettverkskretser, selv for setninger som bare er noen få dusin ord lange. De sier at det ennå ikke er klart hvordan man kan utvide teknikken til å analysere lengre setninger.
Bortsett fra begrensninger åpner LLMs evne til å overvåke sin interne resonneringsprosess nye muligheter for å kontrollere AI-systemer for å sikre sikkerhet.
Samtidig kan det også hjelpe forskere med å utvikle nye treningsmetoder, forbedre kontrollbarrierer for AI og redusere illusjoner og misvisende resultater.
Kilde: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Kommentar (0)