
Im April informierte ein KI-Bot, der den technischen Support für Cursor, ein aufstrebendes Programmierwerkzeug, betreut, einige Kunden über eine Änderung der Unternehmensrichtlinien. Konkret hieß es in der Benachrichtigung, dass die Nutzung von Cursor auf mehr als einem Computer nicht mehr gestattet sei.
In Foren und sozialen Medien äußerten Kunden ihren Unmut. Einige kündigten sogar ihre Cursor-Konten. Noch wütender waren manche jedoch, als ihnen klar wurde, was geschehen war: Der KI-Bot hatte eine Richtlinienänderung angekündigt, die gar nicht existierte.
„Wir haben keine solche Richtlinie. Sie können Cursor selbstverständlich auf mehreren Rechnern verwenden. Leider handelt es sich hierbei um eine ungenaue Antwort eines KI-gestützten Bots“, schrieb Michael Truell, CEO und Mitbegründer des Unternehmens, in einem Reddit-Beitrag.
Die Verbreitung von Falschnachrichten ist ungezügelt und unkontrolliert.
Mehr als zwei Jahre nach dem Aufkommen von ChatGPT nutzen Technologieunternehmen, Büroangestellte und Endverbraucher KI-Bots immer häufiger für eine Vielzahl von Aufgaben.
Es gibt jedoch nach wie vor keine Möglichkeit, die Genauigkeit der von diesen Systemen generierten Informationen zu garantieren. Paradoxerweise produzieren die neuesten und leistungsstärksten Technologien, sogenannte „Inferenzsysteme“, von Unternehmen wie OpenAI, Google und DeepSeek sogar mehr Fehler.
![]() |
Eine absurde Unterhaltung auf ChatGPT, in der ein Nutzer fragt, ob er seinem Hund Müsli füttern soll. Foto: Reddit. |
Im Gegensatz zu den deutlich verbesserten mathematischen Fähigkeiten ist die Fähigkeit großer Sprachmodelle (LLMs), die Wahrheit zu erfassen, zunehmend instabiler geworden. Erstaunlicherweise sind selbst die Ingenieure völlig ratlos, warum.
Laut der New York Times nutzen moderne KI-Chatbots komplexe mathematische Systeme, um durch die Analyse riesiger Mengen numerischer Daten Fähigkeiten zu erlernen. Sie können jedoch nicht zwischen richtig und falsch unterscheiden.
Daraus ergibt sich das Phänomen der „Halluzination“ oder Selbsterfindung. Studien zufolge erlebt die neueste Generation von LLM-Absolventen Halluzinationen sogar häufiger als einige ältere Modelle.
Konkret stellte OpenAI in seinem jüngsten Bericht fest, dass das o3-Modell bei der Beantwortung von 33 % der Fragen auf PersonQA, dem internen Standard des Unternehmens zur Messung der Genauigkeit des Wissens eines Modells über Menschen, "illusorisch" war.
Zum Vergleich: Dieser Wert ist doppelt so hoch wie die „Illusionsrate“ der vorherigen OpenAI-Modelle o1 und o3-mini, die bei 16 % bzw. 14,8 % lag. Das Modell o4-mini schnitt bei PersonQA sogar noch schlechter ab und zeigte in 48 % der Testdauer „Illusionen“.
Noch besorgniserregender ist, dass der „Vater von ChatGPT“ selbst nicht weiß, warum dies geschieht. Konkret heißt es in OpenAIs technischem Bericht zu o3 und o4-mini, dass „weitere Forschung nötig ist, um zu verstehen, warum sich die ‚Halluzinationen‘ bei der Skalierung von Denkmodellen verschlimmern“.
o3 und o4-mini schneiden in einigen Bereichen besser ab, darunter bei Programmier- und Mathematikaufgaben. Da sie jedoch „mehr Aussagen als allgemeine Aussagen treffen müssen“, führen beide Modelle zu „genaueren, aber auch ungenaueren Aussagen“.
„Das wird nie verschwinden.“
Anstelle eines strengen, von menschlichen Ingenieuren definierten Regelwerks verwenden LLM-Systeme mathematische Wahrscheinlichkeiten, um die beste Reaktion vorherzusagen. Daher werden sie immer eine gewisse Anzahl von Fehlern machen.
„Trotz all unserer Bemühungen werden KI-Modelle immer Illusionen unterliegen. Das wird sich nie ändern“, sagte Amr Awadallah, ehemaliger Google-Manager.
![]() |
Laut IBM handelt es sich bei Halluzinationen um Phänomene, bei denen große Sprachmodelle (LLMs) – häufig Chatbots oder Bildverarbeitungswerkzeuge – Datenmuster erhalten, die für Menschen nicht existieren oder unerkennbar sind, und dadurch sinnlose oder ungenaue Ergebnisse liefern. Bild: iStock. |
In einem ausführlichen Bericht über die Experimente erklärte OpenAI, dass weitere Forschung nötig sei, um die Ursache dieser Ergebnisse zu verstehen.
Experten zufolge ist es sehr schwierig zu bestimmen, warum KI-Systeme sich so verhalten, wie sie es tun, da sie aus weitaus größeren Datenmengen lernen, als Menschen begreifen können.
„Diese Illusion tritt naturgemäß häufiger bei Inferenzmodellen auf, obwohl wir aktiv daran arbeiten, die Häufigkeit in o3 und o4-mini zu reduzieren. Wir werden die Illusion weiterhin modellübergreifend untersuchen, um Genauigkeit und Zuverlässigkeit zu verbessern“, sagte Gaby Raila, Sprecherin von OpenAI.
Tests zahlreicher unabhängiger Unternehmen und Forscher zeigen, dass die Rate von Halluzinationen auch bei Inferenzmodellen von Unternehmen wie Google oder DeepSeek zunimmt.
Seit Ende 2023 überwacht Awadallahs Unternehmen Vectara, wie häufig Chatbots Fehlinformationen verbreiten. Das Unternehmen beauftragte diese Systeme mit einer einfachen, leicht überprüfbaren Aufgabe: der Zusammenfassung bestimmter Artikel. Trotzdem erfanden die Chatbots immer wieder Informationen.
Konkret schätzte Vectara in einer ersten Untersuchung, dass Chatbots unter dieser Annahme in mindestens 3 % der Fälle, manchmal sogar in bis zu 27 % der Fälle, Informationen erfunden haben.
In den vergangenen anderthalb Jahren haben Unternehmen wie OpenAI und Google diese Zahlen auf etwa 1 oder 2 % reduziert. Andere, wie das in San Francisco ansässige Startup Anthropic, liegen bei etwa 4 %.
Die Häufigkeit von Halluzinationen nahm in diesem Experiment bei den untersuchten Systemen jedoch weiter zu. Beim R1-System von DeepSeek stieg die Häufigkeit von Halluzinationen um 14,3 %, beim o3-System von OpenAI um 6,8 %.
Ein weiteres Problem besteht darin, dass Inferenzmodelle so konzipiert sind, dass sie Zeit damit verbringen, über komplexe Probleme nachzudenken, bevor sie zu einer endgültigen Antwort gelangen.
![]() |
Apple hat in der ersten Beta-Version von macOS 15.1 eine Aufforderung eingebaut, um zu verhindern, dass KI Informationen erfindet. Bild: Reddit/devanxd2000. |
Der Nachteil besteht jedoch darin, dass das KI-Modell bei dem Versuch, ein Problem schrittweise zu lösen, mit größerer Wahrscheinlichkeit bei jedem Schritt Fehlinterpretationen erfährt. Noch wichtiger ist, dass sich Fehler anhäufen können, je mehr Zeit das Modell mit Nachdenken verbringt.
Die neuesten Bots zeigen dem Nutzer jeden einzelnen Schritt an, sodass dieser auch jeden Fehler nachvollziehen kann. Forscher fanden zudem heraus, dass der vom Chatbot dargestellte Denkprozess in vielen Fällen nichts mit der letztendlichen Antwort zu tun hat.
„Was das System als seine Schlussfolgerungen angibt, ist nicht unbedingt das, was es tatsächlich denkt“, sagt Aryo Pradipta Gema, KI-Forscher an der Universität Edinburgh und Mitarbeiter von Anthropic.
Quelle: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










Kommentar (0)