
Im April benachrichtigte ein KI-Bot, der den technischen Support für Cursor, ein aufstrebendes Tool für Programmierer, übernimmt, einige Kunden über eine Änderung der Unternehmensrichtlinien und teilte ihnen mit, dass sie Cursor nicht mehr auf mehr als einem Computer verwenden dürften.
Kunden äußerten ihren Unmut in Foren und sozialen Medien. Einige kündigten sogar ihre Cursor-Konten. Noch wütender waren manche jedoch, als ihnen klar wurde, was geschehen war: Der KI-Bot hatte eine Richtlinienänderung gemeldet, die gar nicht existierte.
„Wir haben keine solche Richtlinie. Sie können Cursor selbstverständlich auf mehreren Rechnern verwenden. Leider handelte es sich hierbei um eine fehlerhafte Antwort eines KI-gestützten Bots“, schrieb Michael Truell, CEO und Mitbegründer des Unternehmens, in einem Reddit-Beitrag.
Falschinformationen sind außer Kontrolle geraten.
Mehr als zwei Jahre nach dem Start von ChatGPT nutzen Technologieunternehmen, Büroangestellte und Endverbraucher KI-Bots immer häufiger für eine Vielzahl von Aufgaben.
Dennoch gibt es keine Möglichkeit, die Genauigkeit der von diesen Systemen gelieferten Informationen zu gewährleisten. Paradoxerweise machen die leistungsstärksten neuen Technologien, sogenannte „Inferenzsysteme“ von Unternehmen wie OpenAI, Google und DeepSeek, mehr Fehler.
![]() |
Sinnlose ChatGPT-Konversation, in der ein Nutzer fragt, ob Hunde Müsli fressen sollten. Foto: Reddit. |
Während sich die mathematischen Fähigkeiten enorm verbessert haben, ist die Fähigkeit großer Sprachmodelle (LLMs), die Realität abzubilden, immer ungenauer geworden. Erstaunlicherweise ist selbst Ingenieuren völlig unklar, warum.
Laut der New York Times nutzen moderne KI-Chatbots komplexe mathematische Systeme, um durch die Analyse riesiger Mengen digitaler Daten Fähigkeiten zu erlernen. Sie können jedoch nicht zwischen richtig und falsch unterscheiden.
Daraus entwickelt sich der Zustand der „Halluzination“ oder der Selbsterzeugung von Informationen. Tatsächlich halluzinieren die neuesten LLM-Modelle laut Forschungsergebnissen sogar noch häufiger als einige ältere Modelle.
Im jüngsten Bericht stellte OpenAI fest, dass das o3-Modell bei der Beantwortung von 33 % der Fragen auf PersonQA, dem internen Standard des Unternehmens zur Messung der Genauigkeit des Wissens des Modells über Menschen, "halluzinierte".
Zum Vergleich: Dies ist doppelt so hoch wie die „Halluzinationsrate“ der vorherigen OpenAI-Modelle o1 und o3-mini, die bei 16 % bzw. 14,8 % lagen. Das Modell o4-mini schnitt bei PersonQA sogar noch schlechter ab und wies in 48 % der Fälle „Halluzinationen“ auf.
Noch besorgniserregender ist, dass der „Vater von ChatGPT“ selbst nicht weiß, warum dies geschieht. Konkret schreibt OpenAI im technischen Bericht zu o3 und o4-mini, dass „weitere Forschung nötig ist, um zu verstehen, warum die „Illusion“ mit zunehmender Komplexität der Denkmodelle immer schlimmer wird“.
Die Modelle o3 und o4-mini schnitten in einigen Bereichen besser ab, darunter bei Programmier- und Mathematikaufgaben. Da sie jedoch „mehr Aussagen treffen als verallgemeinern“ mussten, produzierten beide Modelle „mehr korrekte, aber auch mehr falsche Aussagen“.
"Das wird niemals verschwinden."
Anstelle eines strengen, von menschlichen Ingenieuren festgelegten Regelwerks verwenden LLM-Systeme mathematische Wahrscheinlichkeitsrechnung, um die beste Antwort zu ermitteln. Daher treten immer gewisse Fehler auf.
„Trotz all unserer Bemühungen werden KI-Modelle immer irreführend sein. Das wird sich nie ändern“, sagte Amr Awadallah, ein ehemaliger Google-Manager.
![]() |
Laut IBM handelt es sich bei Halluzinationen um ein Phänomen, bei dem große Sprachmodelle (LLMs) – typischerweise Chatbots oder Computer-Vision-Tools – Datenmuster erhalten, die für Menschen nicht existieren oder unerkennbar sind, und dadurch sinnlose oder irreführende Ergebnisse liefern. Foto: iStock. |
In einem ausführlichen Bericht über die Experimente erklärte OpenAI, dass weitere Forschung nötig sei, um die Gründe für diese Ergebnisse zu verstehen.
Da KI-Systeme aus viel größeren Datenmengen lernen, als Menschen verstehen können, ist es laut Experten schwierig zu bestimmen, warum sie sich auf diese Weise verhalten.
„Illusionen treten in Inferenzmodellen naturgemäß häufiger auf, obwohl wir aktiv daran arbeiten, die Häufigkeit in o3 und o4-mini zu reduzieren. Wir werden weiterhin an Illusionen in allen Modellen arbeiten, um Genauigkeit und Zuverlässigkeit zu verbessern“, sagte Gaby Raila, eine Sprecherin von OpenAI.
Tests von mehreren unabhängigen Unternehmen und Forschern zeigen, dass die Rate der Halluzinationen auch bei Inferenzmodellen von Unternehmen wie Google oder DeepSeek zunimmt.
Seit Ende 2023 verfolgt Awadallahs Unternehmen Vectara, wie häufig Chatbots Informationen falsch darstellen. Das Unternehmen forderte die Systeme auf, eine einfache, leicht überprüfbare Aufgabe zu erfüllen: die Zusammenfassung bestimmter Nachrichtenartikel. Trotzdem verfälschten die Chatbots weiterhin Informationen.
Konkret schätzte Vectara in einer ersten Untersuchung, dass Chatbots in diesem Szenario in mindestens 3 % der Fälle, manchmal sogar in bis zu 27 % der Fälle, Informationen erfanden.
In den vergangenen anderthalb Jahren haben Unternehmen wie OpenAI und Google diese Zahlen auf etwa 1 oder 2 % reduziert. Andere, wie das in San Francisco ansässige Startup Anthropic, liegen bei etwa 4 %.
Die Halluzinationsrate stieg in diesem Test jedoch bei den Inferenzsystemen weiter an. Die Häufigkeit von Halluzinationen erhöhte sich beim R1-Inferenzsystem von DeepSeek um 14,3 %, während sie beim o3-System von OpenAI um 6,8 % zunahm.
Ein weiteres Problem besteht darin, dass Inferenzmodelle so konzipiert sind, dass sie Zeit damit verbringen, über komplexe Probleme nachzudenken, bevor sie zu einer endgültigen Antwort kommen.
![]() |
In der ersten Testversion von macOS 15.1 hat Apple eine Warnung eingefügt, um zu verhindern, dass KI Informationen erfindet. Foto: Reddit/devanxd2000. |
Der Nachteil besteht jedoch darin, dass das KI-Modell, je schrittweiser es das Problem löst, mit jedem Schritt anfälliger für Fehlschlüsse wird. Noch wichtiger ist, dass sich Fehler anhäufen können, je mehr Zeit das Modell mit Nachdenken verbringt.
Die neuesten Bots zeigen den Nutzern jeden einzelnen Schritt an, sodass diese auch jeden Fehler erkennen können. Forscher fanden zudem heraus, dass der vom Chatbot dargestellte Denkprozess in vielen Fällen nichts mit der letztendlich gegebenen Antwort zu tun hat.
„Was das System als Schlussfolgerung angibt, ist nicht unbedingt das, was es tatsächlich denkt“, sagt Aryo Pradipta Gema, KI-Forscher an der Universität Edinburgh und Mitarbeiter bei Anthropic.
Quelle: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Kommentar (0)