گوگل دیپ‌مایند (Google DeepMind) به تازگی گامی بزرگ در حوزه هوش مصنوعی مولد (GenAI) برداشته است: مدل تصویر فلش Gemini 2.5.

این مدل که با نام مستعار «نانو موز» در جامعه شناخته می‌شود، ابزاری قدرتمند است که قادر به تبدیل متن به تصویر و ویرایش تصاویر موجود با دقت و انعطاف‌پذیری بالا می‌باشد.

این مدل ادامه‌ی خط تولید مدل‌های Gemini است، اما به‌طور خاص برای کارهای مرتبط با تصویر بهینه شده است.

c732a0fbdcce57900edf.jpg
کلمه کلیدی Gemini در ۴ سپتامبر در صدر فهرست ترندهای گوگل در ویتنام قرار گرفت. تصویر صفحه.

نانو موز با مزایای برجسته در قابلیت‌های ایجاد و ویرایش عکس، توجه زیادی از کاربران فناوری جهانی، از جمله ویتنام، را به خود جلب کرده است.

طبق گزارش گوگل ترندز، جستجو برای Gemini و Nano Banana در ۲۴ ساعت گذشته به شدت افزایش یافته است. آمار ۴ سپتامبر نشان می‌دهد که کلمه کلیدی «Gemini» در صدر جدول ترندها در تمام موضوعات قرار گرفته است.

در انجمن‌ها و گروه‌های شبکه‌های اجتماعی، کاربران همچنین دستورات و اسکریپت‌های ایجاد تصویر را با استفاده از Nano Banana به اشتراک می‌گذارند و آزمایش می‌کنند.

اکثر آنها از توانایی ایجاد تصاویر "سریع، مرتب و چابک" و همچنین کیفیت محصول خروجی این ابزار بسیار قدردانی می‌کنند.

نرم‌افزار Gemini 2.5 Flash Image علاوه بر ایجاد تصاویر از توضیحات متنی، در چندین جنبه اصلی نیز برتری دارد: ویرایش تصویر بر اساس تقاضا، ثبات کاراکتر، سرعت پردازش چشمگیر و فناوری امنیتی SynthID.

کاربران می‌توانند از زبان طبیعی برای تغییر عناصر در یک عکس استفاده کنند. برای مثال، فقط دستور «یک صندلی قرمز کنار میز اضافه کنید» یا «پس‌زمینه را به یک جنگل تغییر دهید» را تایپ کنید و مدل ویرایش را با دقت و یکپارچه انجام می‌دهد.

ثبات شخصیت، پیشگامانه‌ترین ویژگی در نظر گرفته می‌شود. مدل می‌تواند تصویری از یک شخصیت یا شیء با ویژگی‌های ثابت (مانند چهره، لباس، سبک) را در عکس‌های مختلف به خاطر بسپارد و از نو بسازد.

این امر به ویژه برای پروژه‌های خلاقانه‌ای که نیاز به ایجاد مجموعه‌ای از تصاویر مرتبط دارند، از کمیک‌ها گرفته تا کمپین‌های بازاریابی، مفید است.

با معماری بهینه‌شده‌اش، نرم‌افزار Gemini 2.5 Flash Image می‌تواند در عرض چند ثانیه نتایج با کیفیتی تولید کند و به طور قابل توجهی گردش کار خلاقانه را تسریع بخشد.

تمام تصاویر ایجاد شده یا ویرایش شده توسط این مدل با یک واترمارک دیجیتال نامرئی اختصاصی از گوگل برچسب‌گذاری می‌شوند که امکان تشخیص تصاویر تولید شده توسط هوش مصنوعی را فراهم می‌کند و به تضمین شفافیت و اصالت محتوا کمک می‌کند.

مدل Gemini 2.5 Flash Image طیف گسترده‌ای از پتانسیل‌های کاربردی را از کاربران عادی گرفته تا توسعه‌دهندگان حرفه‌ای، در اختیار قرار می‌دهد.

توسعه‌دهندگان می‌توانند از طریق Gemini API و Google AI Studio به این مدل دسترسی داشته باشند تا برنامه‌های خود را بسازند، در حالی که کسب‌وکارها می‌توانند از این مدل در پلتفرم Vertex AI استفاده کنند.

برای کاربر عادی، این مدل مستقیماً در گوگل جمینی و سایر برنامه‌ها ساخته شده است و تصویربرداری هوش مصنوعی را به ابزاری قابل دسترس و شهودی تبدیل می‌کند.

با ویژگی‌های برجسته‌اش، به ویژه توانایی حفظ ثبات کاراکترها، انتظار می‌رود Gemini 2.5 Flash Image به رقیبی سرسخت برای نرم‌افزارهای سنتی ویرایش عکس مانند فتوشاپ تبدیل شود و نحوه تعامل سازندگان و کاربران با تصاویر دیجیتال را تغییر دهد.

چین به طور غیرمنتظره‌ای در رقابت جهانی ترجمه هوش مصنوعی از آمریکا پیشی گرفت . مدل متن‌باز Hunyuan-MT-7B شرکت Tencent (چین) تقریباً به طور کامل بر «غول‌های» آمریکایی در رقابت بین‌المللی ترجمه ماشینی در چارچوب کنفرانس WMT25 پیروز شد.

منبع: https://vietnamnet.vn/nano-banana-la-gi-ma-khien-moi-nguoi-xon-xao-dung-dau-google-trends-viet-nam-2439283.html