Vier Top-KI-Modelle konkurrieren darum, die App zu finden, die am sichersten falsch antwortet

[Anzeige_1]

Forscher bei Arthur AI, einer Überwachungsplattform für maschinelles Lernen, testeten branchenführende Modelle und stellten fest, dass GPT-4 in Mathematik am besten war, Llama 2 in allen Bereichen durchschnittlich war, Claude 2 von Anthropic seine Grenzen am besten „kannte“ und Cohere AI den Titel des „wahnhaftesten“ Modells mit den meisten sicheren falschen Antworten erhielt.

Der Bericht von Arthur AI erscheint zu einem Zeitpunkt, da KI-generierte Fehlinformationen im Vorfeld der US-Präsidentschaftswahlen 2024 zu einem heißen Thema werden.

Das Problem der durch KI generierten Fehlinformationen spitzt sich mit der Annäherung an die US-Präsidentschaftswahlen 2024 zu.

Laut Adam Wenchel, Mitbegründer und CEO von Arthur, ist dies der erste Bericht, der „einen umfassenden Blick auf die Halluzinationsraten großer Sprachmodelle (LLMs) wirft, anstatt nur Ranglisten zu veröffentlichen.“

Unter KI-Illusion versteht man das Phänomen, dass Anwaltskanzleien Informationen komplett erfinden und so tun, als würden sie die Wahrheit sagen. So wurde beispielsweise im Juni 2023 berichtet, dass ChatGPT in einer Akte bei einem New Yorker Bundesgericht „falsche“ Informationen extrahiert hatte, und den beteiligten Anwälten drohen schwere Strafen.

Im Experiment ließen die Forscher von Arthur AI KI-Modelle in Kategorien wie kombinatorische Mathematik, Wissen über US-Präsidenten, marokkanische politische Führer usw. gegeneinander antreten. Die Fragen waren darauf ausgelegt, KI-Fehler aufzudecken, was bedeutet, dass die Modelle die einzelnen Schritte der Argumentation zu den gegebenen Informationen erklären müssen.

Die Ergebnisse zeigten, dass OpenAIs GPT-4 unter den getesteten Modellen insgesamt die beste Leistung zeigte. Es wies auch weniger Illusionen auf als sein Vorgänger GPT-3.5. Bei Mathematikfragen beispielsweise wies GPT-4 33 bis 50 Prozent weniger Illusionen auf.

Andererseits ist Metas Llama 2 im Allgemeinen psychedelischer als Anthropics GPT-4 und Claude 2.

In der Kategorie Mathematik belegte GPT-4 den ersten Platz, dicht gefolgt von Claude 2. Bei Tests über US-Präsidenten belegte Claude 2 jedoch den ersten Platz in Sachen Genauigkeit und verdrängte GPT-4 auf den zweiten Platz. Bei der Frage nach der marokkanischen Politik belegte GPT-4 erneut den ersten Platz, wobei Claude 2 und Llama 2 fast ausschließlich keine Antwort gaben.

In einem zweiten Experiment testeten die Forscher, wie „risikoscheu“ die KI-Modelle waren (mit der Meldung „Als KI-Modell kann ich keine Meinung abgeben“).

In diesem Test zeigte GPT-4 im Vergleich zu GPT-3.5 eine um 50 % erhöhte Abwehrbereitschaft, was auch daran zu erkennen war, dass GPT-4-Nutzer berichteten, die neue Version sei nerviger. Coheres KI-Modell hingegen zeigte keinerlei Abwehrbereitschaft. Die Studie ergab, dass Claude 2 in Bezug auf die „Selbstwahrnehmung“ am zuverlässigsten war. Das bedeutet, dass es sein Wissen und sein Nichtwissen präzise einschätzte und nur Fragen beantwortete, für die es Trainingsdaten zur Unterstützung hatte.

Ein Vertreter von Cohere wies die Ergebnisse mit der Begründung zurück, dass die „erweiterte Rückverfolgbarkeitstechnologie des Unternehmens, die nicht in das getestete Modell integriert war, äußerst effektiv darin sei, überprüfbare Informationen zu zitieren, um die Quelle für das Unternehmen zu verifizieren“.

Kommentar (0)