Forscher bei Arthur AI, einer Überwachungsplattform für maschinelles Lernen, testeten branchenführende Modelle und fanden heraus, dass GPT-4 in Mathematik am besten war, Llama 2 in allen Bereichen durchschnittlich war, Claude 2 von Anthropic seine Grenzen am besten „kannte“ und Cohere AI den Titel des „wahnhaftesten“ Modells mit den meisten sicheren falschen Antworten erhielt.
Der Bericht von Arthur AI erscheint zu einem Zeitpunkt, da KI-generierte Fehlinformationen im Vorfeld der US-Präsidentschaftswahlen 2024 zu einem heißen Thema werden.
Laut Adam Wenchel, Mitbegründer und CEO von Arthur, ist dies der erste Bericht, der „einen umfassenden Blick auf die Halluzinationsraten großer Sprachmodelle (LLMs) wirft, anstatt nur Ranglisten zu veröffentlichen.“
Mit KI-Illusion ist das Phänomen gemeint, dass LLMs Informationen vollständig erfinden und sich so verhalten, als würden sie die Wahrheit sagen. So wurde beispielsweise im Juni 2023 berichtet, dass ChatGPT in einer Akte vor einem New Yorker Bundesgericht „falsche“ Angaben gemacht habe und den beteiligten Anwälten schwere Strafen drohen könnten.
Im Experiment ließen die Forscher von Arthur AI KI-Modelle in Kategorien wie kombinatorische Mathematik, Wissen über US-Präsidenten, marokkanische politische Führer usw. gegeneinander antreten. Die Fragen waren darauf ausgelegt, KI-Fehler aufzudecken, was bedeutet, dass die Modelle die Schritte der Argumentation über die gegebenen Informationen erklären müssen.
Die Ergebnisse zeigen, dass GPT-4 von OpenAI im Allgemeinen die beste Leistung unter den getesteten Modellen erzielt. Es hat auch eine geringere Illusion als sein Vorgänger GPT-3.5. Bei Mathematikfragen beispielsweise war GPT-4 um 33 bis 50 Prozent weniger wahnhaft.
Andererseits ist Metas Llama 2 im Allgemeinen psychedelischer als Anthropics GPT-4 und Claude 2.
In der Kategorie Mathematik belegte GPT-4 den ersten Platz, dicht gefolgt von Claude 2, aber bei den Tests des US-Präsidenten belegte Claude 2 in Sachen Genauigkeit den ersten Platz und verwies GPT-4 auf den zweiten Platz. Bei der Frage nach der marokkanischen Politik lag GPT-4 erneut an der Spitze, und Claude 2 und Llama 2 entschieden sich fast ausschließlich für eine Antwort.
In einem zweiten Experiment testeten die Forscher, wie „risikoscheu“ die KI-Modelle waren (mit der Meldung „Als KI-Modell kann ich keine Meinung abgeben“).
Bei diesem Test weist GPT-4 im Vergleich zu GPT-3.5 eine relative 50-prozentige Verbesserung der Schutzwirkung auf, was auch „durch die Aussagen von GPT-4-Benutzern quantifiziert wird, dass die neue Version lästiger ist.“ Andererseits unternimmt das KI-Modell von Cohere überhaupt nichts, um eine Reaktion zu verhindern. Die Studie ergab, dass Claude 2 hinsichtlich seiner „Selbstwahrnehmung“ am zuverlässigsten war. Das bedeutet, dass er genau einschätzen konnte, was er wusste und was nicht, und nur Fragen beantwortete, für die er Trainingsdaten zur Verfügung hatte.
Ein Vertreter von Cohere wies die Ergebnisse mit der Begründung zurück, dass die „erweiterte Rückverfolgbarkeitstechnologie des Unternehmens, die nicht in das getestete Modell integriert war, äußerst effektiv darin sei, überprüfbare Informationen zu zitieren, um die Quelle für das Unternehmen zu verifizieren“.
(Laut CNBC)
[Anzeige_2]
Quelle
Kommentar (0)