KI-Agenten gelten als der nächste Durchbruch in der KI und versprechen, die Art und Weise, wie Menschen mit dem Internet interagieren, völlig zu verändern.
In den letzten Tagen hat Chinas KI-Agent Manus in der weltweiten Technologie-Community für Aufsehen gesorgt. Laut dem Entwickler kann das Tool komplexe Aufgaben wie das Scannen von Kandidatenprofilen, die Planung von Reiserouten und die Analyse von Aktien übernehmen, wenn der Benutzer einfache Anweisungen gibt.
Bevor Manus AI Agent auf den Markt brachte, stellte der amerikanische KI-Gigant OpenAI den ChatGPT Pro-Nutzern in den USA Operator vor. Laut OpenAI kann dieser KI-Agent im Auftrag seines Besitzers einfache Aufgaben im Browser ausführen, beispielsweise Konzertkarten buchen oder Online-Bestellungen aufgeben.
Operator basiert auf einem neuen Modell namens Computer-Using Agent (CUA), das auf dem großen multimodalen Sprachmodell GPT-4o aufbaut. OpenAI-Forscher Yash Kumar räumt ein, dass sich das Modell noch in einem frühen Stadium befindet und noch Mängel aufweist.
Wie andere KI-Agenten erstellt Operator einen Screenshot des Computerbildschirms und scannt die Pixel, um die auszuführenden Aktionen zu bestimmen. CUA, das zugrunde liegende Modell, ist darauf trainiert, mit grafischen Oberflächen wie Schaltflächen, Menüs und Textdialogfeldern zu interagieren, die Menschen vertraut sind.
Laut Reiichiro Nakano, einem weiteren OpenAI -Wissenschaftler , verwenden traditionelle Modelle Software über spezialisierte APIs (Application Programming Interfaces), was zu vielen Einschränkungen führt.
CUA unterteilt Aufgaben außerdem in kleinere Schritte und versucht, diese nacheinander abzuschließen. Bei Problemen kehrt es auch zum Anfang zurück. Derzeit kann Operator einige Aufgaben nur in seinem eigenen Browser ausführen.
OpenAI plant, die Fähigkeiten von CUA in Zukunft durch eine API (Application Programming Interface) zu erweitern, die es Entwicklern ermöglicht, darauf basierend eigene Anwendungen zu schreiben.
OpenAI testete auch die Sicherheit von CUA und setzte ein Red Team ein, um festzustellen, was passieren würde, wenn ein Benutzer den KI-Agenten auffordert, inakzeptable Aufgaben auszuführen (wie etwa die Herstellung biologischer Waffen).
Der New York Times- Journalist Kevin Roose bat Operator, eine Reihe von Dingen für ihn zu erledigen, darunter die Bestellung von Eiskugeln über Amazon, den Kauf und die Neukonfiguration eines neuen Domänennamens, die Reservierung eines Restauranttermins für den 14. Februar und die Planung eines Friseurtermins.
Der Autor merkte an, dass der KI-Agent die meiste Arbeit selbst erledigte, er ihn aber gelegentlich nach einigen erfolglosen Versuchen „retten“ musste.
Roose beschreibt den Operator als ähnlich wie das normale ChatGPT, mit der Ausnahme, dass der KI-Agent bei der Erteilung einer Aufgabe ein Mini-Browserfenster öffnet, Amazon.com in die Adressleiste eingibt und mit dem Klicken beginnt, um eine Aktion auszuführen.
Während des Vorgangs werden einige Fragen gestellt, um die Absichten des Eigentümers zu klären, beispielsweise hinsichtlich der Lieferzeit usw. Nachdem sichergestellt wurde, dass die richtige Auswahl getroffen wurde, sendet es eine endgültige Bestätigung, legt den Artikel in den Warenkorb und fährt mit der Aufgabe der Bestellung fort.
Der wichtigste Punkt hierbei ist, dass der Benutzer es nicht überwachen muss, da es im Hintergrund arbeitet.
Allerdings scheiterte der Operator auch bei einigen anderen Missionen, weil er auf einigen Websites wie Reddit oder YouTube blockiert war oder den CAPTCHA-Test nicht bestand.
Derzeit gibt es keine „Standarddefinition“ für einen KI-Agenten, aber laut Rudina Seseri, Gründerin und Managerin der Risikokapitalgesellschaft Glasswing, handelt es sich bei einem KI-Agenten um ein intelligentes Softwaresystem, das die Betriebsumgebung versteht, schlussfolgert, Entscheidungen trifft und handelt, um Ziele automatisch zu erreichen.
AI Agent verwendet dazu zahlreiche KI/ML-Techniken, wie etwa die Verarbeitung natürlicher Sprache, maschinelles Lernen und Computer Vision.
Aaron Levie, Gründer und CEO von Box, weist darauf hin, dass KI-Agenten mit der Zeit, wenn die Leistungsfähigkeit der KI zunimmt, mehr Arbeit für Menschen übernehmen können.
Jared Spataro, Director of AI at Work Marketing bei Microsoft, sieht KI-Agenten als „neue Anwendungen in einer KI-gesteuerten Welt“. Sie fügen neue Funktionen hinzu, um die „größten Schwachstellen“ jedes Einzelnen am Arbeitsplatz zu adressieren und so echte Geschäftsergebnisse zu erzielen.
KI-Agenten erweitern die Leistungsfähigkeit generativer KI, indem sie Menschen nicht nur unterstützen, sondern auch mit ihnen oder in ihrem Auftrag arbeiten. Laut IBM handeln KI-Agenten auf der Grundlage der erhaltenen Informationen.
Da es nicht über eine umfassende Wissensdatenbank zur Bewältigung aller Aufgaben verfügt, greift es auf verfügbare Tools zurück, darunter externe Datensätze, Websuchen, APIs oder sogar andere KI-Agenten.
Nachdem der Agent die fehlenden Informationen gesammelt hat, aktualisiert er sein Wissen. Das bedeutet, dass er bei jedem Schritt seinen Aktionsplan neu bewertet und anpasst.
Es ist noch zu früh, um zu sagen, ob KI-Agenten eine Bedrohung für den Menschen darstellen. Aber es ist nicht schwer, sich eine nahe Zukunft vorzustellen, in der ein Großteil des Internets von Robotern bevölkert sein wird, die miteinander kommunizieren, einkaufen und im Namen ihrer Besitzer E-Mails schreiben.
Ein „drohnenfreies Internet“ wird langsam Realität, also „klicken Sie, solange Sie können“, schlussfolgert New York Times-Kolumnist Roose.
[Anzeige_2]
Quelle: https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html
Kommentar (0)