ارتقاء گوگل جمینی از مدل تصویر «نانو موز» که توسط گوگل دیپ‌مایند توسعه داده شده است، استفاده می‌کند. این ویژگی اکنون به صورت جهانی برای کاربران رایگان و پولی در دسترس است. بزرگترین نقطه قوت آن، توانایی آن در حفظ ثبات چهره‌ها و اشیاء در عکس‌ها است، چیزی که سایر ابزارهای هوش مصنوعی اغلب در آن مشکل دارند.

نیکول بریختووا، سرپرست محصول در دیپ‌مایند، گفت: «ما واقعاً کیفیت تصویر و توانایی مدل در پیروی از دستورالعمل‌ها را ارتقا داده‌ایم. این به‌روزرسانی، ویرایش را یکپارچه‌تر می‌کند و نتایج به اندازه کافی خوب هستند که برای هر هدفی قابل استفاده باشند.»

«خودت» را در هر عکسی نگه دار

یکی از چیزهایی که باعث می‌شود عکس‌های هوش مصنوعی جعلی به نظر برسند این است که جزئیات کوچک تحریف می‌شوند. گوگل می‌گوید Gemini این مشکل را حل می‌کند و به شما امکان می‌دهد کل صحنه را تغییر دهید در حالی که چهره و حالت چهره ثابت می‌ماند. می‌توانید مدل موی جدیدی را امتحان کنید، رنگ دیوار را تغییر دهید یا یک حیوان خانگی را بدون نگرانی از تحریف تصویر به صحنه بیاورید.

ترکیب عکس‌ها با هم.gif
ادغام عکس‌ها با زمینه جدید از دو تصویر موجود با استفاده از Google Gemini. منبع: گوگل

Gemini همچنین به شما امکان می‌دهد چندین عکس را آپلود کنید تا در یک عکس ترکیب شوند، مانند ترکیب یک پرتره با گربه‌تان برای ایجاد عکسی از خودتان و گربه‌تان که در جاده با هم در حال دوچرخه‌سواری هستید.

Gemini از ویرایش چند مرحله‌ای پشتیبانی می‌کند و به کاربران اجازه می‌دهد هر جزئیاتی را به فضا اضافه کنند: از کاغذ دیواری، مبلمان گرفته تا رنگ‌آمیزی. نکته مثبت این است که فقط بخشی که نیاز به ویرایش دارد تغییر می‌کند، بقیه ثابت می‌مانند.

علاوه بر این، Gemini می‌تواند سبک‌ها را بین عکس‌ها ترکیب کند. برای مثال، چکمه‌های بارانی را به کفش‌های طرح گل تبدیل کند، یا یک لباس با طرح پروانه درست کند.

رقابت غول‌های فناوری در خلق تصاویر با هوش مصنوعی

ارتقاء گوگل در حالی صورت می‌گیرد که جنگ تصویربرداری هوش مصنوعی داغ شده است. OpenAI پیش از این GPT-4o را راه‌اندازی کرده بود که می‌تواند مستقیماً تصاویر را تولید کند و با مجموعه‌ای از میم‌های سبک استودیو گیبلی به سرعت فراگیر شد. سم آلتمن، مدیرعامل، فاش کرد که تعداد کاربران آنقدر افزایش یافته است که پردازنده‌های گرافیکی شرکت «تقریباً ذوب شده‌اند».

برای عقب نماندن از قافله، متا از همکاری با میدجورنی خبر داد، در حالی که استارتاپ آلمانی بلک فارست لبز با مدل FLUX خود، بسیاری از نمودارها را در اختیار دارد.

ویرایش چند مرحله‌ای.gif
قابلیت‌های ویرایش چند مرحله‌ای عکس در گوگل جمینی. منبع: گوگل

گوگل امیدوار است که Gemini بتواند فاصله خود را با ChatGPT کم کند. به گفته مدیرعامل، ساندار پیچای، Gemini در حال حاضر ۴۵۰ میلیون کاربر ماهانه دارد که بسیار کمتر از ChatGPT است که بیش از ۷۰۰ میلیون کاربر هفتگی دارد.

بریختووا گفت که جمینی برای سناریوهای دنیای واقعی، از تجسم اتاق‌های نشیمن و باغ‌ها گرفته تا ایجاد عکس‌های سرگرم‌کننده، طراحی شده است. این مدل «دانش جهانی » بهتری دارد و می‌تواند چندین عکس و پالت رنگی را در یک رندر واحد ترکیب کند.

با این حال، گوگل محدودیت‌های سختگیرانه‌ای نیز تعیین می‌کند. تمام تصاویر تولید شده دارای واترمارک واضح و شناسه‌های پنهان در فراداده هستند. این شرکت به شدت ایجاد تصاویر حساس را به صورت غیرارادی ممنوع می‌کند تا از سوءاستفاده از دیپ‌فیک جلوگیری کند.

گوگل پیش از این به خاطر تصاویر تاریخی نادرست جمینی عذرخواهی کرده بود. این بار، این شرکت معتقد است که بین خلاقیت و ایمنی تعادل برقرار کرده است. بریچتوا تأکید کرد: «ما می‌خواهیم کاربران خلاق باشند، اما همه چیز مجاز نیست.»

گوگل با Gemini 2.5 Flash Image، روی ارتقای تجربه ویرایش عکس با هوش مصنوعی حساب ویژه‌ای باز کرده است و امیدوار است در رقابت شدید فناوری با OpenAI، Meta و سایر رقبا، کاربران قدیمی را حفظ و کاربران جدیدی را جذب کند.

(طبق گفته TechCrunch، راهنمای تام)

انویدیا با پرداخت ۸۵ میلیون دونگ ویتنام به ازای هر «مغز»، راه را برای دوران ساخت ربات توسط انسان‌ها هموار می‌کند. انویدیا به تازگی تراشه‌ای به نام Jetson AGX Thor را عرضه کرده است که «مغز ربات» نامیده می‌شود و قادر است به ماشین‌ها کمک کند تا مانند انسان‌ها ببینند، فکر کنند و عمل کنند و با قیمت ۳۴۹۹ دلار آمریکا، رقابت هوش مصنوعی فیزیکی را آغاز کند.

منبع: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html