Apples neue Forschung zu großen Inferenzmodellen erregt Aufmerksamkeit. Foto: Macrumors . |
Nur drei Jahre nach ihrer Einführung hat künstliche Intelligenz begonnen, in vielen Alltagsaktivitäten wie Studium und Arbeit Einzug zu halten. Viele Menschen befürchten, dass es nicht mehr lange dauern wird, bis sie den Menschen ersetzen kann.
Doch neue KI-Modelle sind nicht so intelligent, wie wir denken. Eine Studie eines großen Technologieunternehmens hat diese Annahme bestätigt.
Jeder weiß, „zu schwer zu ignorieren“
In einer neu veröffentlichten Studie mit dem Titel „Illusionary Thinking“ behauptet das Apple-Forschungsteam, dass Inferenzmodelle wie Claude, DeepSeek-R1 und o3-mini nicht wirklich „gehirngesteuert“ sind, wie ihre Namen vermuten lassen.
Das Wort „Inferenz“ sollte durch „Nachahmung“ ersetzt werden. Die Gruppe argumentiert, dass diese Modelle lediglich effizient darin sind, Muster zu speichern und zu wiederholen. Ändert sich jedoch die Fragestellung oder erhöht sich die Komplexität, brechen sie fast zusammen.
Einfacher ausgedrückt: Chatbots funktionieren gut, wenn sie Muster erkennen und zuordnen können. Sobald das Problem jedoch zu komplex wird, können sie es nicht mehr bewältigen. „Moderne Large Reasoning Models (LRMs) verlieren an Genauigkeit, sobald die Komplexität einen bestimmten Schwellenwert überschreitet“, heißt es in der Studie.
Dies widerspricht der Erwartung der Entwickler, dass sich die Komplexität mit mehr Ressourcen verbessert. „Der Aufwand für KI-Inferenz steigt mit der Komplexität, aber nur bis zu einem gewissen Punkt, und nimmt dann ab, selbst wenn noch genügend Token-Budget (Rechenleistung) vorhanden ist, um damit umzugehen“, heißt es in der Studie weiter.
In dieser Studie stellten die Forscher das Fragemodell, das üblicherweise zum Beantworten von Fragen verwendet wird, auf den Kopf. Anstelle des üblichen Mathetests führten sie raffiniert gestaltete Rätsel wie den Turm von Hanoi, Damespringen, Flussüberquerung und Blockwelt ein.
Jedes Puzzlespiel hat einfache und klare Regeln mit unterschiedlichen Komplexitätsgraden, beispielsweise durch das Hinzufügen weiterer Scheiben, Blöcke und Agenten. Das Inferenzmodell schneidet auf mittlerem Schwierigkeitsgrad besser ab, verliert aber auf einfachem Schwierigkeitsgrad gegenüber der normalen Version. Auf dem hohen Schwierigkeitsgrad fällt alles komplett auseinander, als hätte die KI aufgegeben.
Beim Problem „Turm von Hanoi“ konnte das Team die Leistung des Inferenzmodells trotz „Futter“ des Problemlösungsalgorithmus nicht wesentlich verbessern. Einige Modelle schnitten im Spiel bis zu Level 100 gut ab, konnten beim Problem „Flussüberquerung“ jedoch nur fünf Schritte unvollständig abschließen.
![]() |
Beim Hanoi Tower müssen die Spieler die Kreise der Größe nach verschieben und neu positionieren. Foto: Wikipedia. |
Dies deutet auf eine schlechte Inferenzleistung sowie mangelnde Stabilität der LRM-Modelle hin. Inmitten heftiger Debatten über die Fähigkeit der KI, mit dem Menschen mitzuhalten, beweist diese neue Apple-Studie das Gegenteil.
Apples Entdeckung ist nicht neu
Gary Marcus, ein amerikanischer Psychologe und Autor, sagte, Apples Ergebnisse seien zwar beeindruckend, aber nicht wirklich neu und bestätigten lediglich frühere Forschungsergebnisse. Der emeritierte Professor für Psychologie und Neurowissenschaften an der New York University führte als Beispiel seine Studie aus dem Jahr 1998 an.
Darin argumentiert er, dass neuronale Netzwerke, die Vorläufer großer Sprachmodelle, innerhalb der Verteilung der Daten, mit denen sie trainiert wurden, gut verallgemeinern können, bei Daten außerhalb dieser Verteilung jedoch häufig zusammenbrechen.
Er zitiert auch Argumente des Informatikers Subbarao Kambhampati von der Arizona State University aus den letzten Jahren. Professor Rao glaubt, dass „Gedankenketten“ und „Inferenzmodelle“ von Natur aus weniger zuverlässig sind, als viele Leute denken.
„Die Leute neigen dazu, die Inferenzspuren großer Sprachmodelle zu sehr zu vermenschlichen und nennen sie ‚Gedanken‘, obwohl sie diesen Namen vielleicht nicht verdienen“, sagt der Professor, der eine Reihe von Artikeln darüber geschrieben hat, dass die von LLMs generierten Gedankensequenzen nicht immer genau das widerspiegeln, was sie tatsächlich tun.
Neue Forschungsergebnisse von Apple zeigen, dass selbst die neueste Generation von Inferenzmodellen außerhalb ihrer Trainingsdaten unzuverlässig ist. Marcus betont, dass sowohl LLM- als auch LRM-Modelle ihre Vorteile haben und in manchen Fällen nützlich sind. Nutzer sollten ihren Ergebnissen jedoch nicht trauen.
Quelle: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html
Kommentar (0)