ارتقاء گوگل جمینی از مدل تصویر «نانو موز» که توسط گوگل دیپمایند توسعه داده شده است، استفاده میکند. این ویژگی اکنون به صورت جهانی برای کاربران رایگان و پولی در دسترس است. بزرگترین نقطه قوت آن، توانایی آن در حفظ ثبات چهرهها و اشیاء در عکسها است، چیزی که سایر ابزارهای هوش مصنوعی اغلب در آن مشکل دارند.
نیکول بریختووا، سرپرست محصول در دیپمایند، گفت: «ما واقعاً کیفیت تصویر و توانایی مدل در پیروی از دستورالعملها را ارتقا دادهایم. این بهروزرسانی، ویرایش را یکپارچهتر میکند و نتایج به اندازه کافی خوب هستند که برای هر هدفی قابل استفاده باشند.»
«خودت» را در هر عکسی نگه دار
یکی از چیزهایی که باعث میشود عکسهای هوش مصنوعی جعلی به نظر برسند این است که جزئیات کوچک تحریف میشوند. گوگل میگوید Gemini این مشکل را حل میکند و به شما امکان میدهد کل صحنه را تغییر دهید در حالی که چهره و حالت چهره ثابت میماند. میتوانید مدل موی جدیدی را امتحان کنید، رنگ دیوار را تغییر دهید یا یک حیوان خانگی را بدون نگرانی از تحریف تصویر به صحنه بیاورید.

Gemini همچنین به شما امکان میدهد چندین عکس را آپلود کنید تا در یک عکس ترکیب شوند، مانند ترکیب یک پرتره با گربهتان برای ایجاد عکسی از خودتان و گربهتان که در جاده با هم در حال دوچرخهسواری هستید.
Gemini از ویرایش چند مرحلهای پشتیبانی میکند و به کاربران اجازه میدهد هر جزئیاتی را به فضا اضافه کنند: از کاغذ دیواری، مبلمان گرفته تا رنگآمیزی. نکته مثبت این است که فقط بخشی که نیاز به ویرایش دارد تغییر میکند، بقیه ثابت میمانند.
علاوه بر این، Gemini میتواند سبکها را بین عکسها ترکیب کند. برای مثال، چکمههای بارانی را به کفشهای طرح گل تبدیل کند، یا یک لباس با طرح پروانه درست کند.
رقابت غولهای فناوری در خلق تصاویر با هوش مصنوعی
ارتقاء گوگل در حالی صورت میگیرد که جنگ تصویربرداری هوش مصنوعی داغ شده است. OpenAI پیش از این GPT-4o را راهاندازی کرده بود که میتواند مستقیماً تصاویر را تولید کند و با مجموعهای از میمهای سبک استودیو گیبلی به سرعت فراگیر شد. سم آلتمن، مدیرعامل، فاش کرد که تعداد کاربران آنقدر افزایش یافته است که پردازندههای گرافیکی شرکت «تقریباً ذوب شدهاند».
برای عقب نماندن از قافله، متا از همکاری با میدجورنی خبر داد، در حالی که استارتاپ آلمانی بلک فارست لبز با مدل FLUX خود، بسیاری از نمودارها را در اختیار دارد.

گوگل امیدوار است که Gemini بتواند فاصله خود را با ChatGPT کم کند. به گفته مدیرعامل، ساندار پیچای، Gemini در حال حاضر ۴۵۰ میلیون کاربر ماهانه دارد که بسیار کمتر از ChatGPT است که بیش از ۷۰۰ میلیون کاربر هفتگی دارد.
بریختووا گفت که جمینی برای سناریوهای دنیای واقعی، از تجسم اتاقهای نشیمن و باغها گرفته تا ایجاد عکسهای سرگرمکننده، طراحی شده است. این مدل «دانش جهانی » بهتری دارد و میتواند چندین عکس و پالت رنگی را در یک رندر واحد ترکیب کند.
با این حال، گوگل محدودیتهای سختگیرانهای نیز تعیین میکند. تمام تصاویر تولید شده دارای واترمارک واضح و شناسههای پنهان در فراداده هستند. این شرکت به شدت ایجاد تصاویر حساس را به صورت غیرارادی ممنوع میکند تا از سوءاستفاده از دیپفیک جلوگیری کند.
گوگل پیش از این به خاطر تصاویر تاریخی نادرست جمینی عذرخواهی کرده بود. این بار، این شرکت معتقد است که بین خلاقیت و ایمنی تعادل برقرار کرده است. بریچتوا تأکید کرد: «ما میخواهیم کاربران خلاق باشند، اما همه چیز مجاز نیست.»
گوگل با Gemini 2.5 Flash Image، روی ارتقای تجربه ویرایش عکس با هوش مصنوعی حساب ویژهای باز کرده است و امیدوار است در رقابت شدید فناوری با OpenAI، Meta و سایر رقبا، کاربران قدیمی را حفظ و کاربران جدیدی را جذب کند.
(طبق گفته TechCrunch، راهنمای تام)

منبع: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
نظر (0)