ในช่วงไม่กี่วันที่ผ่านมา AI Agent Manus ของจีนได้สร้างความฮือฮาให้กับชุมชนเทคโนโลยีทั่วโลก โดยตามคำกล่าวของผู้พัฒนา เครื่องมือนี้สามารถทำงานที่ซับซ้อนได้ เช่น การสแกนโปรไฟล์ผู้สมัคร วางแผนการเดินทาง และวิเคราะห์หุ้นเมื่อผู้ใช้ให้คำแนะนำพื้นฐาน

ก่อนที่ Manus จะเปิดตัว AI Agent บริษัทยักษ์ใหญ่ด้าน AI ของอเมริกาอย่าง OpenAI ได้เปิดตัว Operator ให้กับผู้ใช้ ChatGPT Pro ในสหรัฐอเมริกา ตามข้อมูลของ OpenAI AI Agent นี้สามารถทำงานง่ายๆ แทนเจ้าของได้ผ่านเบราว์เซอร์ เช่น การจองตั๋วคอนเสิร์ตหรือการสั่งซื้อออนไลน์

Operator นั้นใช้โมเดลใหม่ที่เรียกว่า Computer-Using Agent (CUA) ซึ่งสร้างขึ้นจากโมเดลภาษามัลติโมดัลขนาดใหญ่ GPT-4o นักวิจัย OpenAI อย่าง Yash Kumar ยอมรับว่าโมเดลนี้ยังอยู่ในช่วงเริ่มต้นและยังมีข้อบกพร่องอยู่

เช่นเดียวกับเอเจนต์ AI อื่นๆ Operator จะจับภาพหน้าจอคอมพิวเตอร์และสแกนพิกเซลเพื่อตัดสินใจว่าจะดำเนินการอย่างไร CUA ซึ่งเป็นโมเดลเบื้องหลังนั้นได้รับการฝึกให้โต้ตอบกับอินเทอร์เฟซกราฟิก เช่น ปุ่ม เมนู และกล่องโต้ตอบข้อความที่มนุษย์คุ้นเคย

ตามที่ Reiichiro Nakano นักวิทยาศาสตร์ OpenAI อีกคนหนึ่งได้กล่าวไว้ว่า โมเดลดั้งเดิมจะใช้ซอฟต์แวร์ผ่าน API เฉพาะทาง (อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน) ซึ่งทำให้เกิดข้อจำกัดต่างๆ มากมาย

CUA ยังแบ่งงานออกเป็นขั้นตอนย่อยๆ และพยายามทำให้เสร็จทีละขั้นตอน รวมถึงย้อนกลับไปที่จุดเริ่มต้นหากมีบางอย่างผิดพลาด ปัจจุบัน Operator สามารถทำได้บางอย่างในเบราว์เซอร์ของตัวเองเท่านั้น

OpenAI วางแผนที่จะขยายขีดความสามารถของ CUA ในอนาคตผ่าน API (Application Programming Interface) ที่ช่วยให้นักพัฒนาสามารถเขียนแอปพลิเคชันของตนเองบน API ดังกล่าวได้

OpenAI ยังได้ทดสอบความปลอดภัยของ CUA โดยใช้ Red Team เพื่อพิจารณาว่าจะเกิดอะไรขึ้นหากผู้ใช้ขอให้ AI Agent ทำภารกิจที่ยอมรับไม่ได้ (เช่น การผลิตอาวุธชีวภาพ)

นักข่าว ของ New York Times อย่าง Kevin Roose ได้ขอให้ Operator ทำหลายๆ อย่างให้กับเขา เช่น การสั่งไอศกรีมผ่านทาง Amazon การซื้อชื่อโดเมนใหม่และกำหนดค่าใหม่ การจองร้านอาหารสำหรับวันที่ 14 กุมภาพันธ์ และการนัดเวลาตัดผม

นักเขียนให้ความเห็นว่า AI Agent จะทำงานส่วนใหญ่ด้วยตัวเอง แต่บางครั้งเขาต้อง "ช่วยเหลือ" มันหลังจากพยายามหลายครั้งที่ไม่ประสบความสำเร็จ

Roose อธิบายว่า Operator นั้นดูคล้ายกับ ChatGPT ทั่วไป ยกเว้นว่าเมื่อได้รับมอบหมายงาน ตัวแทน AI จะเปิดหน้าต่างเบราว์เซอร์ขนาดเล็ก พิมพ์ Amazon.com ลงในแถบที่อยู่ และเริ่มคลิกเพื่อดำเนินการ

ในระหว่างกระบวนการนั้น ระบบจะถามคำถามบางข้อเพื่อชี้แจงถึงความตั้งใจของเจ้าของ เช่น เวลาในการจัดส่ง... หลังจากแน่ใจแล้วว่าเลือกถูกต้องแล้ว ระบบจะส่งคำยืนยันครั้งสุดท้าย ใส่สินค้าลงในรถเข็น และดำเนินการสั่งซื้อ

สิ่งที่สำคัญที่สุดคือผู้ใช้ไม่จำเป็นต้องตรวจสอบ เนื่องจากระบบทำงานอยู่เบื้องหลัง

อย่างไรก็ตาม ผู้ปฏิบัติการยังล้มเหลวในภารกิจอื่นๆ อีกด้วย เนื่องจากถูกบล็อกบนเว็บไซต์บางแห่ง เช่น Reddit, YouTube หรือไม่ผ่านการทดสอบ CAPTCHA

ในปัจจุบันยังไม่มีคำจำกัดความ “มาตรฐาน” ของ AI Agent แต่ตามที่ Rudina Seseri ผู้ก่อตั้งและผู้จัดการบริษัทเงินทุนเสี่ยง Glasswing ระบุว่า AI Agent เป็นระบบซอฟต์แวร์อัจฉริยะที่ได้รับการออกแบบมาเพื่อทำความเข้าใจสภาพแวดล้อมการปฏิบัติการ เหตุผล ตัดสินใจ และดำเนินการเพื่อบรรลุเป้าหมายโดยอัตโนมัติ

AI Agent ใช้เทคนิค AI/ML มากมาย เช่น การประมวลผลภาษาธรรมชาติ การเรียนรู้ของเครื่องจักร และการมองเห็นคอมพิวเตอร์

Aaron Levie ผู้ก่อตั้งและซีอีโอของ Box ชี้ให้เห็นว่าเมื่อเวลาผ่านไป เมื่อ AI มีความสามารถมากขึ้น ตัวแทน AI จะสามารถทำงานแทนมนุษย์ได้มากขึ้น

Jared Spataro ผู้อำนวยการฝ่ายการตลาด AI at Work ของ Microsoft มองว่า AI Agents เป็น “แอปพลิเคชันใหม่ในโลกที่ขับเคลื่อนด้วย AI” โดยจะเพิ่มฟีเจอร์ใหม่เพื่อแก้ไข “จุดเจ็บปวดที่ใหญ่ที่สุด” ของแต่ละคนในที่ทำงาน เพื่อขับเคลื่อนผลลัพธ์ทางธุรกิจที่แท้จริง

ตัวแทน AI จะนำพลังของ AI เชิงสร้างสรรค์มาใช้ให้มากขึ้นโดยไม่เพียงแต่ช่วยเหลือมนุษย์เท่านั้น แต่ยังทำงานร่วมกับมนุษย์หรือในนามของพวกเขาด้วย ตามที่ IBM ระบุ ตัวแทน AI จะดำเนินการตามข้อมูลที่ได้รับ

เนื่องจากไม่มีฐานความรู้ที่ครอบคลุมเพื่อจัดการงานทุกงาน จึงต้องใช้อุปกรณ์ที่มีอยู่ เช่น ชุดข้อมูลภายนอก การค้นหาทางเว็บ API หรือแม้แต่ AI Agent อื่นๆ

หลังจากรวบรวมข้อมูลที่ขาดหายไปแล้ว ตัวแทนจะอัปเกรดความรู้ของตนเอง ซึ่งหมายความว่าในแต่ละขั้นตอน ตัวแทนจะประเมินแผนการดำเนินการใหม่และปรับเปลี่ยนตัวเอง

ยังเร็วเกินไปที่จะบอกว่าเอเจนต์ AI เป็นภัยคุกคามต่อมนุษย์หรือไม่ แต่ไม่ใช่เรื่องยากที่จะจินตนาการถึงอนาคตอันใกล้ที่เว็บส่วนใหญ่จะเต็มไปด้วยหุ่นยนต์ที่พูดคุยกัน ช้อปปิ้ง และเขียนอีเมลแทนเจ้าของ

“อินเทอร์เน็ตแบบไร้โดรน” กำลังจะกลายเป็นความจริงในไม่ช้านี้ ดังนั้น “คลิกซะขณะที่ยังทำได้” นักเขียนคอลัมน์จากนิวยอร์กไทมส์อย่าง Roose สรุป