
Η Google μόλις ανακοίνωσε ένα νέο μοντέλο τεχνητής νοημοσύνης που ονομάζεται Gemini 2.5 Computer Use, το οποίο επιτρέπει στην τεχνητή νοημοσύνη να αλληλεπιδρά απευθείας με το πρόγραμμα περιήγησης ιστού όπως ένας πραγματικός χρήστης.

Οι δυνατότητες αυτής της τεχνητής νοημοσύνης περιλαμβάνουν κλικ, κύλιση, πληκτρολόγηση, μεταφορά και απόθεση και πλοήγηση σε ιστότοπους.

Αυτό είναι ένα σημαντικό βήμα προς τα εμπρός για να επιτραπεί στην Τεχνητή Νοημοσύνη να χειρίζεται εργασίες σε διεπαφές χωρίς API ή άμεσες συνδέσεις.

Σύμφωνα με την Google, το Gemini 2.5 Computer Use είναι εξοπλισμένο με δυνατότητες οπτικής κατανόησης και συλλογισμού για την κατανόηση του περιεχομένου στην οθόνη και την εκτέλεση αιτημάτων χρηστών, όπως η συμπλήρωση φορμών, η υποβολή δεδομένων ή η πλοήγηση σε διεπαφές χρήστη (δοκιμή UI).

Ορισμένες παλαιότερες εκδόσεις αυτού του μοντέλου έχουν δοκιμαστεί σε εσωτερικά έργα όπως το AI Mode και το Project Mariner, όπου η AI μπορεί να ολοκληρώνει αυτόματα εργασίες στο πρόγραμμα περιήγησης, όπως η προσθήκη προϊόντων σε ένα καλάθι αγορών με βάση μια λίστα συστατικών που παρέχεται από τον χρήστη.

Αξίζει να σημειωθεί ότι η ανακοίνωση της Google έρχεται μόλις μία ημέρα αφότου η OpenAI παρουσίασε μια σειρά από νέες εφαρμογές για το ChatGPT στην εκδήλωση Dev Day, ενώ η Anthropic παρουσίασε επίσης μια λειτουργία «χρήσης υπολογιστή» για το μοντέλο Claude πέρυσι.

Σύμφωνα με την Google, το Gemini 2.5 Computer Use ξεπερνά τα ανταγωνιστικά μοντέλα σε πολλές δοκιμές benchmark για το web και τα κινητά.

Ωστόσο, σε αντίθεση με το ChatGPT Agent ή το Claude, το μοντέλο της Google λειτουργεί μόνο σε περιβάλλον προγράμματος περιήγησης και δεν είναι βελτιστοποιημένο για πλήρη έλεγχο του λειτουργικού συστήματος του υπολογιστή.

Προς το παρόν υποστηρίζει 13 τύπους ενεργειών, όπως άνοιγμα προγράμματος περιήγησης, εισαγωγή κειμένου, μεταφορά και απόθεση και μετακίνηση στοιχείων διεπαφής. Το μοντέλο είναι διαθέσιμο στους προγραμματιστές μέσω του Google AI Studio και του Vertex AI, και οι χρήστες μπορούν να δουν μια ζωντανή επίδειξη στο Browserbase, όπου η AI εκτελεί εργασίες όπως "παιχνίδι 2048" ή "εύρεση αμφιλεγόμενων θεμάτων στο Hacker News".
Πηγή: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
Σχόλιο (0)