AI Google Gemini 2.5 ทำงานร่วมกับเบราว์เซอร์เหมือนคนจริง

Google เพิ่งประกาศเปิดตัวโมเดล AI ใหม่ที่เรียกว่า Gemini 2.5 Computer Use ซึ่งช่วยให้ปัญญาประดิษฐ์โต้ตอบกับเว็บเบราว์เซอร์โดยตรงเหมือนกับผู้ใช้จริง

ความสามารถของ AI ได้แก่ การคลิก การเลื่อน การพิมพ์ การลากและวาง และการนำทางเว็บไซต์

นี่ถือเป็นก้าวสำคัญในการเปิดใช้งาน AI เพื่อจัดการงานบนอินเทอร์เฟซโดยไม่ต้องใช้ API หรือการเชื่อมต่อโดยตรง

ตามที่ Google ระบุ Gemini 2.5 Computer Use มาพร้อมกับความสามารถในการเข้าใจภาพและการใช้เหตุผลเพื่อทำความเข้าใจเนื้อหาบนหน้าจอและดำเนินการตามคำขอของผู้ใช้ เช่น การกรอกแบบฟอร์ม การส่งข้อมูล หรือการนำทางอินเทอร์เฟซผู้ใช้ (การทดสอบ UI)

โมเดลรุ่นก่อนหน้านี้บางรุ่นได้รับการทดสอบในโครงการภายใน เช่น โหมด AI และ Project Mariner ซึ่ง AI สามารถทำภารกิจในเบราว์เซอร์ได้โดยอัตโนมัติ เช่น การเพิ่มผลิตภัณฑ์ลงในรถเข็นสินค้าตามรายการส่วนผสมที่ผู้ใช้ให้มา

ที่น่าสังเกตคือการประกาศของ Google เกิดขึ้นเพียงหนึ่งวันหลังจากที่ OpenAI ได้เปิดตัวแอปพลิเคชันใหม่สำหรับ ChatGPT ในงาน Dev Day ขณะที่ Anthropic ยังได้แนะนำฟีเจอร์ "การใช้งานคอมพิวเตอร์" สำหรับโมเดล Claude เมื่อปีที่แล้วอีกด้วย

ตามที่ Google ระบุ Gemini 2.5 Computer Use เหนือกว่ารุ่นอื่นๆ ในการทดสอบประสิทธิภาพบนเว็บและมือถือหลายๆ ครั้ง

อย่างไรก็ตาม ไม่เหมือนกับ ChatGPT Agent หรือ Claude โมเดลของ Google จะทำงานในสภาพแวดล้อมของเบราว์เซอร์เท่านั้น และไม่ได้รับการปรับให้เหมาะสมสำหรับการควบคุมระบบปฏิบัติการของคอมพิวเตอร์แบบเต็มรูปแบบ

ปัจจุบันรองรับการทำงาน 13 ประเภท ได้แก่ การเปิดเบราว์เซอร์ การป้อนข้อความ การลากและวาง และการย้ายองค์ประกอบอินเทอร์เฟซ นักพัฒนาสามารถใช้งานโมเดลนี้ได้ผ่าน Google AI Studio และ Vertex AI และผู้ใช้สามารถดูการสาธิตสดบน Browserbase ซึ่ง AI จะทำงานต่างๆ เช่น "เล่น 2048" หรือ "ค้นหาหัวข้อที่ถกเถียงกันใน Hacker News"