Dario Amodei, CEO von Anthropic, stellt die neuesten Forschungsergebnisse des Unternehmens vor. Foto: Fortune . |
Forscher des KI-Unternehmens Anthropic geben an, ihnen sei ein grundlegender Durchbruch beim Verständnis der genauen Funktionsweise großer Sprachmodelle (LLMs) gelungen, ein Durchbruch, der wichtige Auswirkungen auf die Verbesserung der Sicherheit zukünftiger KI-Modelle haben könnte.
Untersuchungen zeigen, dass KI-Modelle noch intelligenter sind als gedacht. Eines der größten Probleme von LLM-Modellen, die hinter den leistungsstärksten Chatbots wie ChatGPT, Gemini und Copilot stecken, ist, dass sie wie eine Blackbox agieren.
Wir können Eingaben machen und Ergebnisse von Chatbots erhalten, aber wie sie zu einer bestimmten Antwort kommen, bleibt selbst für die Forscher, die sie entwickelt haben, ein Rätsel.
Dies macht es schwierig vorherzusagen, wann ein Modell halluzinieren oder falsche Ergebnisse liefern könnte. Forscher haben auch Barrieren errichtet, um zu verhindern, dass KI gefährliche Fragen beantwortet, erklären aber nicht, warum manche Barrieren wirksamer sind als andere.
KI-Agenten sind auch zum „Belohnungshacking“ fähig. In manchen Fällen können KI-Modelle Benutzer über ihre bisherigen oder geplanten Aktionen belügen.
Obwohl aktuelle KI-Modelle in der Lage sind, Schlussfolgerungen zu ziehen und Gedankenketten zu generieren, haben einige Experimente gezeigt, dass sie den Prozess, durch den das Modell zu einer Antwort gelangt, immer noch nicht genau widerspiegeln.
Im Wesentlichen ähnelt das von den Anthropologen entwickelte Tool den fMRI-Scannern, die Neurowissenschaftler zur Untersuchung des menschlichen Gehirns verwenden. Durch die Anwendung auf ihr Claude 3.5 Haiku-Modell konnte Anthropic Einblicke in die Funktionsweise von LLM-Modellen gewinnen.
Die Forscher stellten fest, dass Claude zwar nur darauf trainiert wurde, das nächste Wort in einem Satz vorherzusagen, bei bestimmten Aufgaben jedoch lernte, langfristiger zu planen.
Wenn Claude beispielsweise aufgefordert wurde, ein Gedicht zu schreiben, suchte er zunächst nach Wörtern, die zum Thema passten und sich reimen konnten, und arbeitete sich dann rückwärts vor, um vollständige Verse zu schreiben.
Claude verfügt außerdem über eine gemeinsame KI-Sprache. Obwohl er auf die Unterstützung mehrerer Sprachen trainiert ist, denkt Claude zunächst in dieser Sprache und drückt die Ergebnisse dann in der unterstützten Sprache aus.
Nachdem Claude ein schwieriges Problem erhalten hatte, aber absichtlich die falsche Lösung vorgeschlagen hatte, stellten die Forscher fest, dass Claude über seinen Gedankengang lügen konnte, indem er der Suggestion folgte, um dem Benutzer einen Gefallen zu tun.
In anderen Fällen erfand Claude trotz einer einfachen Frage, die das Modell sofort und ohne logisches Denken beantworten konnte, einen falschen Denkprozess.
Josh Baston, ein Forscher bei Anthropic, sagte, dass Claude zwar behauptete, eine Berechnung durchgeführt zu haben, aber nichts feststellen konnte.
Experten argumentieren inzwischen, dass es Studien gebe, die zeigten, dass Menschen sich manchmal nicht einmal selbst verstehen, sondern nur rationale Erklärungen erfinden, um die getroffenen Entscheidungen zu rechtfertigen.
Im Allgemeinen neigen Menschen dazu, ähnlich zu denken. Aus diesem Grund haben Psychologen häufige kognitive Verzerrungen entdeckt.
Allerdings können LLMs Fehler machen, die Menschen nicht machen können, da die Art und Weise, wie sie Antworten generieren, sich stark von der Art und Weise unterscheidet, wie wir eine Aufgabe ausführen.
Das Anthropic-Team implementierte eine Methode, die Neuronen auf der Grundlage von Merkmalen in Schaltkreise gruppiert, anstatt jedes Neuron einzeln zu analysieren, wie dies bei früheren Techniken der Fall war.
Dieser Ansatz helfe dabei zu verstehen, welche Rollen verschiedene Komponenten spielen, und ermögliche es den Forschern, den gesamten Inferenzprozess durch die Schichten des Netzwerks zu verfolgen, sagte Baston.
Diese Methode hat außerdem die Einschränkung, dass sie nur annähernd ist und nicht den gesamten Informationsverarbeitungsprozess von LLM widerspiegelt, insbesondere nicht die Änderung des Aufmerksamkeitsprozesses, die sehr wichtig ist, während LLM Ergebnisse liefert.
Darüber hinaus benötigt ein Experte Stunden, um neuronale Netzwerkschaltkreise zu identifizieren, selbst für Sätze mit nur wenigen Dutzend Wörtern. Es sei noch nicht klar, wie sich die Technik auf die Analyse längerer Sätze erweitern lasse, heißt es.
Abgesehen von den Einschränkungen eröffnet die Fähigkeit von LLM, interne Schlussfolgerungen zu überwachen, neue Möglichkeiten zur Steuerung von KI-Systemen, um Sicherheit und Schutz zu gewährleisten.
Gleichzeitig kann es Forschern auch dabei helfen, neue Trainingsmethoden zu entwickeln, KI-Kontrollbarrieren zu verbessern und Illusionen und irreführende Ergebnisse zu reduzieren.
Quelle: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html
Kommentar (0)