گوگل دیپ‌مایند (Google DeepMind) به تازگی جهش بزرگی را در حوزه هوش مصنوعی مولد (GenAI) معرفی کرده است: مدل تصویر فلش Gemini 2.5.

این مدل که با نام مستعار «نانو موز» در جامعه شناخته می‌شود، ابزاری قدرتمند است که قادر به تبدیل متن به تصویر و ویرایش تصاویر موجود با دقت و انعطاف‌پذیری بالا می‌باشد.

این مدل، جانشین مدل Gemini است، اما به‌طور خاص برای کارهای مرتبط با تصویر بهینه شده است.

c732a0fbdcce57900edf.jpg
کلمه کلیدی Gemini در چهارم سپتامبر در صدر فهرست ترندهای گوگل در ویتنام قرار گرفت. (تصویر از صفحه)

نانو موز با قابلیت‌های برجسته خود در ایجاد و ویرایش تصویر، توجه قابل توجهی از کاربران فناوری در سراسر جهان، از جمله ویتنام، را به خود جلب کرده است.

طبق گزارش گوگل ترندز، جستجو برای Gemini و Nano Banana در ۲۴ ساعت گذشته افزایش یافته است. آمارها از ۴ سپتامبر نشان می‌دهد که کلمه کلیدی "Gemini" در صدر نمودارهای ترند در تمام موضوعات قرار گرفته است.

در انجمن‌ها و گروه‌های رسانه‌های اجتماعی، کاربران همچنین دستورات و سناریوهای ایجاد تصویر با استفاده از نانو موز را به اشتراک می‌گذارند و آزمایش می‌کنند.

اکثر مردم از توانایی این ابزار در ایجاد تصاویر به سرعت و کارآمدی و همچنین کیفیت خروجی آن قدردانی می‌کنند.

فراتر از ایجاد تصاویر از توضیحات متنی، نرم‌افزار Gemini 2.5 Flash Image در چندین زمینه اصلی برتری دارد: ویرایش تصویر مبتنی بر دستور، حفظ ثبات کاراکتر، سرعت پردازش چشمگیر و فناوری امنیتی SynthID.

کاربران می‌توانند از زبان طبیعی برای تغییر عناصر در یک عکس استفاده کنند. برای مثال، به سادگی با وارد کردن دستور «یک صندلی قرمز کنار میز اضافه کنید» یا «پس‌زمینه را به یک جنگل تغییر دهید»، مدل ویرایش‌ها را به طور دقیق و یکپارچه انجام می‌دهد.

حفظ ثبات شخصیت، پیشگامانه‌ترین ویژگی در نظر گرفته می‌شود. این مدل می‌تواند تصویر یک شخصیت یا شیء را با ویژگی‌های ثابت (مانند چهره، لباس، سبک) در چندین تصویر مختلف به خاطر بسپارد و بازتولید کند.

این امر به ویژه برای پروژه‌های خلاقانه‌ای که نیاز به تولید مجموعه‌ای از تصاویر مرتبط دارند، از کمیک‌ها گرفته تا کمپین‌های بازاریابی، مفید است.

با معماری بهینه‌شده‌اش، Gemini 2.5 Flash Image می‌تواند نتایج با کیفیتی را تنها در عرض چند ثانیه تولید کند و روند خلاقیت را به طور قابل توجهی تسریع بخشد.

تمام تصاویر ایجاد شده یا ویرایش شده توسط مدل با یک واترمارک دیجیتال نامرئی اختصاصی از گوگل برچسب گذاری می‌شوند که امکان شناسایی تصاویر ایجاد شده با هوش مصنوعی را فراهم می‌کند و در نتیجه به تضمین شفافیت و اصالت محتوا کمک می‌کند.

مدل Gemini 2.5 Flash Image کاربردهای بالقوه‌ی بسیاری را، از کاربران عادی گرفته تا توسعه‌دهندگان حرفه‌ای، در اختیار قرار می‌دهد.

توسعه‌دهندگان می‌توانند از طریق Gemini API و Google AI Studio به این مدل دسترسی داشته باشند تا برنامه‌های خود را بسازند، در حالی که کسب‌وکارها می‌توانند از این مدل در پلتفرم Vertex AI استفاده کنند.

برای کاربر عادی، این مدل مستقیماً در Google Gemini و سایر برنامه‌ها ادغام می‌شود و ایجاد تصویر هوش مصنوعی را به ابزاری در دسترس و شهودی تبدیل می‌کند.

با ویژگی‌های برجسته‌اش، به ویژه توانایی‌اش در حفظ ثبات کاراکترها، انتظار می‌رود Gemini 2.5 Flash Image به رقیبی سرسخت برای نرم‌افزارهای سنتی ویرایش عکس مانند فتوشاپ تبدیل شود و نحوه تعامل سازندگان و کاربران با تصاویر دیجیتال را تغییر دهد.

چین به طور غیرمنتظره‌ای در رقابت جهانی ترجمه هوش مصنوعی از آمریکا پیشی گرفت . مدل متن‌باز Hunyuan-MT-7B شرکت Tencent (چین) در رقابت بین‌المللی ترجمه ماشینی که در کنفرانس WMT25 برگزار شد، تقریباً به پیروزی قطعی بر غول‌های آمریکایی دست یافت.

منبع: https://vietnamnet.vn/nano-banana-la-gi-ma-khien-moi-nguoi-xon-xao-dung-dau-google-trends-viet-nam-2439283.html