Dario Amodei, CEO van Anthropic, deelt het nieuwste onderzoek van het bedrijf. Foto: Fortune . |
Onderzoekers van het AI-bedrijf Anthropic zeggen dat ze een fundamentele doorbraak hebben bereikt in het begrijpen van de precieze werking van grote taalmodellen (LLM's). Deze doorbraak kan belangrijke gevolgen hebben voor het verbeteren van de veiligheid en beveiliging van toekomstige AI-modellen.
Onderzoek toont aan dat AI-modellen nog slimmer zijn dan we dachten. Een van de grootste problemen met LLM-modellen, die de basis vormen van de krachtigste chatbots zoals ChatGPT, Gemini en Copilot, is dat ze zich gedragen als een black box.
We kunnen invoer invoeren en resultaten krijgen van chatbots, maar hoe ze tot een specifiek antwoord komen, blijft een mysterie, zelfs voor de onderzoekers die ze hebben gebouwd.
Dit maakt het moeilijk te voorspellen wanneer een model hallucineert of onjuiste resultaten oplevert. Onderzoekers hebben ook barrières gebouwd om te voorkomen dat AI gevaarlijke vragen beantwoordt, maar ze leggen niet uit waarom sommige barrières effectiever zijn dan andere.
AI-agenten zijn ook in staat tot 'beloningshacking'. In sommige gevallen kunnen AI-modellen gebruikers voorliegen over wat ze hebben gedaan of proberen te doen.
Hoewel recente AI-modellen in staat zijn om te redeneren en gedachteketens te genereren, hebben sommige experimenten aangetoond dat ze het proces waarmee het model tot een antwoord komt, nog steeds niet nauwkeurig weergeven.
In essentie is de tool die de Anthropic-onderzoekers ontwikkelden vergelijkbaar met de fMRI-scanner die neurowetenschappers gebruiken om de menselijke hersenen te scannen. Door deze toe te passen op hun Claude 3.5 Haiku-model, kon Anthropic inzicht krijgen in hoe LLM-modellen werken.
De onderzoekers ontdekten dat Claude weliswaar alleen was getraind om het volgende woord in een zin te voorspellen, maar dat hij bij bepaalde taken leerde om meer op de lange termijn te plannen.
Toen Claude bijvoorbeeld de opdracht kreeg om een gedicht te schrijven, zocht hij eerst naar woorden die bij het thema pasten en die konden rijmen. Vervolgens werkte hij terug om complete verzen te schrijven.
Claude heeft ook een gemeenschappelijke AI-taal. Hoewel hij getraind is om meerdere talen te ondersteunen, denkt Claude eerst in die taal en drukt hij zijn resultaten vervolgens uit in de taal die hij ondersteunt.
Bovendien ontdekten de onderzoekers dat Claude, nadat ze Claude een moeilijk probleem hadden voorgelegd en daarbij opzettelijk de verkeerde oplossing hadden voorgesteld, kon liegen over zijn gedachtegang en de suggestie kon volgen om de gebruiker een plezier te doen.
In andere gevallen, toen Claude een eenvoudige vraag kreeg die het model meteen kon beantwoorden zonder te redeneren, bedacht hij alsnog een vals redeneringsproces.
Josh Baston, onderzoeker bij Anthropic, zei dat Claude weliswaar beweerde dat er een berekening was uitgevoerd, maar dat hij niets kon vinden.
Deskundigen beweren dat er onderzoeken zijn die aantonen dat mensen zichzelf soms niet eens begrijpen, maar alleen rationele verklaringen bedenken om de genomen beslissingen te rechtvaardigen.
Over het algemeen denken mensen op een vergelijkbare manier. Daarom hebben psychologen veelvoorkomende cognitieve vertekeningen ontdekt.
Toch kunnen LLM's fouten maken die mensen niet kunnen, omdat de manier waarop zij antwoorden genereren wezenlijk verschilt van de manier waarop wij een taak uitvoeren.
Het Anthropic-team implementeerde een methode om neuronen te groeperen in circuits op basis van kenmerken, in plaats van elk neuron afzonderlijk te analyseren, zoals bij eerdere technieken het geval was.
Volgens de heer Baston helpt deze aanpak om te begrijpen welke rollen verschillende componenten spelen en stelt het onderzoekers in staat om het volledige inferentieproces door de lagen van het netwerk te volgen.
Deze methode heeft ook de beperking dat het slechts bij benadering is en niet de volledige informatieverwerking van LLM weerspiegelt, met name de verandering in aandachtsproces, die erg belangrijk is omdat LLM resultaten oplevert.
Bovendien kost het een expert uren om neurale netwerkcircuits te identificeren, zelfs voor zinnen van slechts enkele tientallen woorden. Ze zeggen dat het nog niet duidelijk is hoe de techniek kan worden uitgebreid om langere zinnen te analyseren.
Afgezien van de beperkingen biedt het vermogen van de LLM om het interne redeneringsproces te monitoren nieuwe mogelijkheden voor het aansturen van AI-systemen om veiligheid en beveiliging te garanderen.
Tegelijkertijd kan het onderzoekers helpen nieuwe trainingsmethoden te ontwikkelen, barrières in de controle over AI te verbeteren en illusies en misleidende uitkomsten te verminderen.
Bron: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Reactie (0)