
Im April informierte ein KI-Bot, der den technischen Support für Cursor, ein neues Tool für Programmierer, übernimmt, einige Kunden über eine Änderung der Unternehmensrichtlinien. Konkret heißt es in der Mitteilung, dass die Nutzung von Cursor auf mehr als einem Computer nicht mehr gestattet sei.
In Foren und sozialen Medien machten Kunden ihrem Ärger Luft. Einige haben sogar ihre Cursor-Konten gekündigt. Einige waren jedoch noch wütender, als ihnen klar wurde, was passiert war: Der KI-Bot hatte eine Richtlinienänderung angekündigt, die es nicht gab.
„Diese Richtlinie gibt es bei uns nicht. Sie können Cursor natürlich auf mehreren Rechnern verwenden. Leider handelte es sich hierbei um eine falsche Antwort eines KI-gesteuerten Bots“, schrieb Michael Truell, CEO und Mitgründer des Unternehmens, in einem Reddit-Beitrag.
Falschinformationen geraten außer Kontrolle.
Mehr als zwei Jahre nach der Einführung von ChatGPT verwenden Technologieunternehmen, Büroangestellte und normale Verbraucher KI-Bots immer häufiger für eine breite Palette von Aufgaben.
Es gibt jedoch keine Garantie dafür, dass diese Systeme genaue Informationen liefern. Es ist paradox, dass die leistungsstärksten neuen Technologien, sogenannte „Inferenzsysteme“ von Unternehmen wie OpenAI, Google und DeepSeek, mehr Fehler machen.
![]() |
Unsinniger ChatGPT-Dialog, in dem der Benutzer fragt, ob Hunde Müsli essen sollten. Foto: Reddit. |
Während sich die mathematischen Fähigkeiten dramatisch verbessert haben, ist die Fähigkeit großer Sprachmodelle (LLMs), die Wahrheit zu erfassen, wackeliger geworden. Bemerkenswerterweise haben nicht einmal die Ingenieure selbst eine Ahnung, warum das so ist.
Laut der New York Times verlassen sich die heutigen KI-Chatbots auf komplexe mathematische Systeme, um durch die Analyse riesiger Mengen digitaler Daten Fähigkeiten zu erlernen. Sie können jedoch nicht entscheiden, was richtig und was falsch ist.
Von dort aus entsteht der Zustand der „Halluzination“ oder der selbst erzeugten Information. Tatsächlich sind die neuesten LLMs laut Untersuchungen sogar noch „illusorischer“ als einige ältere Modelle.
Konkret stellte OpenAI im jüngsten Bericht fest, dass das o3-Modell bei der Beantwortung von 33 % der Fragen zu PersonQA, dem internen Standard des Unternehmens zur Messung der Genauigkeit der Menschenkenntnis des Modells, „halluzinierte“.
Zum Vergleich: Dies ist die doppelte „Halluzinationsrate“ der vorherigen Reasoning-Modelle von OpenAI, o1 und o3-mini, die 16 % bzw. 14,8 % betrugen. Das Modell o4-mini schnitt bei PersonQA sogar noch schlechter ab und erlebte während bis zu 48 % der Testdauer „Halluzinationen“.
Noch beunruhigender ist, dass der „Vater von ChatGPT“ nicht wirklich weiß, warum dies passiert. Im technischen Bericht zu o3 und o4-mini schreibt OpenAI insbesondere, dass „weitere Forschung erforderlich ist, um zu verstehen, warum die ‚Illusion‘ schlimmer wird“, wenn die Argumentationsmodelle skaliert werden.
Der o3 und der o4-mini schneiden in einigen Bereichen besser ab, darunter bei Programmier- und Mathematikaufgaben. Aufgrund der Notwendigkeit, „mehr Behauptungen aufzustellen als zu verallgemeinern“, leiden beide Modelle jedoch unter dem Problem, dass sie Ergebnisse produzieren, die „präzisere Behauptungen, aber auch ungenauere Behauptungen“ enthalten.
„Das wird nie verschwinden“
Anstelle eines strengen, von menschlichen Ingenieuren festgelegten Regelsatzes verwenden LLM-Systeme mathematische Wahrscheinlichkeiten, um die beste Antwort zu erraten. Daher machen sie immer bestimmte Fehler.
„Trotz unserer besten Bemühungen werden KI-Modelle immer auf Wahnvorstellungen beruhen. Das wird sich nie ändern“, sagte Amr Awadallah, ein ehemaliger Google-Manager.
![]() |
Laut IBM liegen Halluzinationen vor, wenn ein großes Sprachmodell (LLM) – typischerweise ein Chatbot oder ein Computer-Vision-Tool – Datenmuster empfängt, die nicht existieren oder für Menschen nicht erkennbar sind, was zu bedeutungslosen oder irreführenden Ergebnissen führt. Foto: iStock. |
In einem ausführlichen Dokument über die Experimente erklärte OpenAI, dass weitere Forschung erforderlich sei, um die Gründe für diese Ergebnisse zu verstehen.
Da KI-Systeme aus viel größeren Datenmengen lernen, als Menschen verstehen können, kann es laut Experten schwierig sein, herauszufinden, warum sie sich auf eine bestimmte Art und Weise verhalten.
„Halluzinationen kommen in Inferenzmodellen naturgemäß häufiger vor, obwohl wir aktiv daran arbeiten, die Häufigkeit in o3 und o4-mini zu reduzieren. Wir werden weiterhin an Halluzinationen in allen Modellen arbeiten, um Genauigkeit und Zuverlässigkeit zu verbessern“, sagte Gaby Raila, Sprecherin von OpenAI.
Tests mehrerer unabhängiger Unternehmen und Forscher zeigen, dass die Illusionsrate auch bei Inferenzmodellen von Unternehmen wie Google oder DeepSeek zunimmt.
Seit Ende 2023 verfolgt Awadallahs Unternehmen Vectara, wie oft Chatbots Fehlinformationen verbreiten. Das Unternehmen forderte diese Systeme auf, eine einfache, leicht überprüfbare Aufgabe zu erfüllen: die Zusammenfassung bestimmter Nachrichtenartikel. Selbst dann erfinden Chatbots weiterhin Informationen.
Konkret kam Vectara in seinen ersten Untersuchungen zu dem Schluss, dass Chatbots in diesem Szenario in mindestens 3 % der Fälle, manchmal sogar in bis zu 27 % der Fälle, Informationen erfanden.
In den letzten anderthalb Jahren haben Unternehmen wie OpenAI und Google diese Zahlen auf etwa 1 bis 2 % gesenkt. Andere, wie das Startup Anthropic aus San Francisco, liegen bei etwa 4 %.
Allerdings stieg die Halluzinationsrate in diesem Test bei Inferenzsystemen weiter an. Die Häufigkeit von Halluzinationen beim R1-Inferenzsystem von DeepSeek stieg um 14,3 %, während sie bei o3 von OpenAI um 6,8 % zunahm.
Ein weiteres Problem besteht darin, dass Inferenzmodelle so konzipiert sind, dass sie einige Zeit damit verbringen, über komplexe Probleme „nachzudenken“, bevor sie zu einer endgültigen Antwort gelangen.
![]() |
Um zu verhindern, dass KI Informationen fälscht, hat Apple in die erste Testversion von macOS 15.1 eine Eingabeaufforderung eingefügt. Foto: Reddit/devanxd2000. |
Die Kehrseite besteht jedoch darin, dass das KI-Modell durch den Versuch, das Problem Schritt für Schritt zu lösen, mit jedem Schritt stärker der Gefahr ausgesetzt ist, zu halluzinieren. Noch wichtiger ist, dass sich Fehler anhäufen können, je mehr Zeit das Modell mit dem Nachdenken verbringt.
Die neuesten Bots zeigen dem Benutzer jeden Schritt an, sodass der Benutzer auch jeden Fehler sehen kann. Die Forscher stellten außerdem fest, dass der von einem Chatbot angezeigte Denkschritt in vielen Fällen nichts mit der endgültigen Antwort zu tun hatte, die er gab.
„Was das System als Argument vorgibt, entspricht nicht unbedingt dem, was es tatsächlich denkt“, sagt Aryo Pradipta Gema, KI-Forscher an der Universität Edinburgh und Mitarbeiter von Anthropic.
Quelle: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
Kommentar (0)