
গুগল সবেমাত্র জেমিনি ২.৫ কম্পিউটার ব্যবহার নামে একটি নতুন এআই মডেল ঘোষণা করেছে, যা কৃত্রিম বুদ্ধিমত্তাকে একজন প্রকৃত ব্যবহারকারীর মতো ওয়েব ব্রাউজারের সাথে সরাসরি যোগাযোগ করতে দেয়।

এই AI এর ক্ষমতার মধ্যে রয়েছে ক্লিক করা, স্ক্রলিং করা, টাইপ করা, টেনে আনা এবং ছেড়ে দেওয়া এবং ওয়েবসাইট নেভিগেট করা।

API বা সরাসরি সংযোগ ছাড়াই ইন্টারফেসে কাজ পরিচালনা করতে AI সক্ষম করার ক্ষেত্রে এটি একটি গুরুত্বপূর্ণ পদক্ষেপ।

গুগলের মতে, জেমিনি ২.৫ কম্পিউটার ইউজ অন-স্ক্রিন কন্টেন্ট বুঝতে এবং ফর্ম পূরণ, ডেটা জমা দেওয়া, বা ব্যবহারকারী ইন্টারফেস নেভিগেট (UI টেস্টিং) করার মতো ব্যবহারকারীর অনুরোধগুলি সম্পাদন করার জন্য ভিজ্যুয়াল বোঝাপড়া এবং যুক্তি ক্ষমতা দিয়ে সজ্জিত।

এই মডেলের কিছু পূর্ববর্তী সংস্করণ এআই মোড এবং প্রজেক্ট মেরিনারের মতো অভ্যন্তরীণ প্রকল্পগুলিতে পরীক্ষা করা হয়েছে, যেখানে এআই ব্রাউজারে স্বয়ংক্রিয়ভাবে কাজগুলি সম্পন্ন করতে পারে, যেমন ব্যবহারকারী-প্রদত্ত উপাদান তালিকার উপর ভিত্তি করে শপিং কার্টে পণ্য যুক্ত করা।

উল্লেখযোগ্যভাবে, গুগলের এই ঘোষণাটি ওপেনএআই তার ডেভ ডে ইভেন্টে চ্যাটজিপিটির জন্য নতুন অ্যাপ্লিকেশনগুলির একটি সিরিজ উন্মোচনের ঠিক একদিন পরেই এসেছে, যখন অ্যানথ্রপিক গত বছর তার ক্লড মডেলের জন্য একটি "কম্পিউটার ব্যবহার" বৈশিষ্ট্যও চালু করেছিল।

গুগলের মতে, জেমিনি ২.৫ কম্পিউটার ব্যবহার অনেক ওয়েব এবং মোবাইল বেঞ্চমার্ক পরীক্ষায় প্রতিযোগী মডেলগুলিকে ছাড়িয়ে যায়।

তবে, চ্যাটজিপিটি এজেন্ট বা ক্লডের বিপরীতে, গুগলের মডেলটি শুধুমাত্র ব্রাউজার পরিবেশে কাজ করে এবং কম্পিউটারের অপারেটিং সিস্টেমের সম্পূর্ণ নিয়ন্ত্রণের জন্য অপ্টিমাইজ করা হয় না।

এটি বর্তমানে ১৩ ধরণের ক্রিয়া সমর্থন করে, যার মধ্যে রয়েছে একটি ব্রাউজার খোলা, টেক্সট প্রবেশ করানো, টেনে আনা এবং ফেলে দেওয়া এবং ইন্টারফেস উপাদানগুলি সরানো। মডেলটি গুগল এআই স্টুডিও এবং ভার্টেক্স এআই-এর মাধ্যমে ডেভেলপারদের জন্য উপলব্ধ, এবং ব্যবহারকারীরা ব্রাউজারবেসে একটি লাইভ ডেমো দেখতে পারেন, যেখানে এআই "প্লে ২০৪৮" বা "হ্যাকার নিউজে বিতর্কিত বিষয়গুলি খুঁজে বের করুন" এর মতো কাজগুলি সম্পাদন করে।
সূত্র: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
মন্তব্য (0)