Der Chatbot von OpenAI wird durch neue Technologien ständig verbessert. Foto: New York Times . |
Im September 2024 veröffentlichte OpenAI eine Version von ChatGPT, die das o1-Modell integriert, welches Aufgaben aus den Bereichen Mathematik, Naturwissenschaften und Computerprogrammierung lösen kann.
Im Gegensatz zur vorherigen Version von ChatGPT benötigt die neue Technologie Zeit, um über Lösungen für komplexe Probleme nachzudenken, bevor sie eine Antwort gibt.
Nach OpenAI führten viele Konkurrenten wie Google, Anthropic und DeepSeek ähnliche Modelle zur Schlussfolgerung ein. Obwohl sie nicht perfekt sind, genießen viele Entwickler dennoch Vertrauen in diese Technologie zur Verbesserung von Chatbots.
Wie KI argumentiert
Im Wesentlichen bedeutet logisches Denken, dass der Chatbot mehr Zeit hat, das vom Benutzer geschilderte Problem zu lösen.
„Beim logischen Denken geht es darum, wie das System zusätzliche Arbeit leistet, nachdem es eine Frage erhalten hat“, sagte Dan Klein, Professor für Informatik an der University of California, gegenüber der New York Times .
Das Denksystem kann ein Problem in einzelne Schritte zerlegen oder es durch Ausprobieren lösen.
Bei seiner Markteinführung konnte ChatGPT Fragen sofort beantworten, indem es Informationen extrahierte und zusammenführte. Das logische System benötigte hingegen einige Sekunden (oder sogar Minuten), um das Problem zu lösen und eine Antwort zu geben.
![]() |
Beispiel für den Denkprozess des o1-Modells in einem Kundenservice-Chatbot. Foto: OpenAI . |
In manchen Fällen ändert das System seinen Lösungsansatz und verbessert so kontinuierlich die Lösung. Alternativ kann das Modell mehrere Lösungsansätze ausprobieren, bevor es sich für die optimale Lösung entscheidet, oder die Genauigkeit vorheriger Antworten überprüfen.
Im Allgemeinen berücksichtigt das Denksystem alle möglichen Antworten auf die Frage. Das ist vergleichbar mit einem Grundschüler, der viele mögliche Antworten auf ein Blatt Papier schreibt, bevor er den geeignetsten Lösungsweg für eine mathematische Aufgabe auswählt.
Laut der New York Times ist KI mittlerweile in der Lage, über jedes beliebige Thema zu argumentieren. Am effektivsten ist sie jedoch bei Fragen aus den Bereichen Mathematik, Naturwissenschaften und Programmierung.
Wie wird das theoretische System trainiert?
In einem typischen Chatbot können Nutzer weiterhin nach einer Erklärung des Ablaufs fragen oder die Richtigkeit einer Antwort überprüfen. Tatsächlich beinhalten viele ChatGPT-Trainingsdatensätze bereits einen Problemlösungsprozess.
Ein System mit ausgeprägten Denkfähigkeiten geht noch einen Schritt weiter, wenn es Aktionen ausführen kann, ohne dass der Benutzer es dazu auffordern muss. Der Prozess ist komplexer und weitreichender. Unternehmen verwenden den Begriff „logisches Denken“, weil das System ähnlich wie das menschliche Denken funktioniert.
Viele Unternehmen wie OpenAI setzen darauf, dass logische Schlussfolgerungssysteme der beste Weg sind, Chatbots zu verbessern. Jahrelang glaubten sie, dass Chatbots besser funktionieren würden, wenn sie mit möglichst vielen Informationen aus dem Internet trainiert würden.
Bis 2024 werden KI-Systeme nahezu alle im Internet verfügbaren Texte verarbeitet haben. Das bedeutet, dass Unternehmen neue Lösungen zur Verbesserung ihrer Chatbots finden müssen, einschließlich intelligenter Schlussfolgerungssysteme.
![]() |
Das Startup DeepSeek sorgte einst mit einem Schlussfolgerungsmodell, das weniger kostete als OpenAI, für Aufsehen. Foto: Bloomberg . |
Seit dem letzten Jahr konzentrieren sich Unternehmen wie OpenAI auf eine Technik namens Reinforcement Learning, ein Prozess, der typischerweise mehrere Monate dauert und bei dem die KI das Verhalten durch Versuch und Irrtum erlernt.
Beispielsweise kann das System durch das Lösen Tausender Probleme die optimale Methode zur Ermittlung der richtigen Antwort erlernen. Darauf aufbauend entwickelten die Forscher komplexe Feedbackmechanismen, die dem System helfen, richtige und falsche Lösungen zu erkennen.
„Es ist wie beim Hundetraining. Wenn er brav ist, gibt man ihm ein Leckerli. Wenn er unartig ist, sagt man: ‚Dieser Hund ist unartig‘“, sagte Jerry Tworek, Forscher bei OpenAI.
Ist KI die Zukunft?
Laut der New York Times eignet sich Reinforcement Learning gut für Fragestellungen in Mathematik, Naturwissenschaften und Computerprogrammierung, bei denen es klar definierte richtige oder falsche Antworten gibt.
Im Gegensatz dazu ist Reinforcement Learning in Bereichen wie kreativem Schreiben, Philosophie oder Ethik, wo die Unterscheidung zwischen Gut und Böse schwierig ist, weniger effektiv. Forscher sagen jedoch, dass die Technik die Leistung von KI auch bei Fragestellungen außerhalb der Mathematik verbessern kann.
„Die Systeme werden die Wege lernen, die zu positiven und negativen Ergebnissen führen“, sagte Jared Kaplan, Chief Science Officer bei Anthropic.
![]() |
Website von Anthropic, dem Startup, dem das KI-Modell Claude gehört. Foto: Bloomberg . |
Es ist wichtig zu beachten, dass Reinforcement Learning und Reasoning-Systeme zwei unterschiedliche Konzepte darstellen. Reinforcement Learning ist eine Methode zum Aufbau von Reasoning-Systemen. Es handelt sich um die letzte Trainingsphase, in der Chatbots über Reasoning-Fähigkeiten verfügen.
Da sie noch relativ neu sind, können Wissenschaftler nicht mit Sicherheit sagen, ob Chatbots mit logischem Denken oder bestärkendes Lernen KI helfen können, wie Menschen zu denken. Es ist wichtig zu beachten, dass sich viele aktuelle Trends im KI-Training anfangs sehr schnell entwickeln und dann allmählich abflachen.
Darüber hinaus können auch Chatbots mit logischen Fähigkeiten Fehler machen. Basierend auf Wahrscheinlichkeiten wählt das System den Prozess, der den gelernten Daten am ähnlichsten ist, unabhängig davon, ob diese aus dem Internet oder durch bestärkendes Lernen stammen. Daher können Chatbots immer noch die falsche oder unvernünftige Lösung wählen.
Quelle: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html













Kommentar (0)