گوگل یکی از شرکتهای فناوری است که در رقابت برای توسعه ابزارهای هوش مصنوعی (AI)، از جمله چتبات Gemini برای رقابت با ChatGPT یا ابزار ایجاد تصویر مبتنی بر متن Imagen، بسیار فعال بوده است. با این حال، توانایی گوگل در ایجاد ویدیو از متن توصیفی هنوز توسط جامعه فناوری بسیار پایینتر از رقبایش در نظر گرفته میشود.
اخیراً، گوگل رسماً ابزار پشتیبانی کاربر Gemini Advanced را برای تبدیل متن به ویدیوهای با وضوح بالا با مدت زمان ۸ ثانیه معرفی کرده است. همزمان، ویژگی Whisk Animate نیز با قابلیت تبدیل تصاویر ثابت به ویدیوهای انیمیشنی واضح با مدت زمان مشابه، راهاندازی شده است. هر دوی این ویژگیها اکنون برای کاربرانی که در Google One AI Premium مشترک هستند، در دسترس هستند.
گوگل میگوید Veo 2 جهشی رو به جلو در ساخت ویدیو است که برای تولید ویدیوهای با وضوح بالا، جزئیات، واقعگرایانه و سینمایی طراحی شده است. Veo 2 با ثبت فیزیک دنیای واقعی و حرکت انسان، میتواند حرکات روان شخصیتها، صحنههای پویا و جزئیات نفیس را در طیف وسیعی از موضوعات و سبکها ایجاد کند.
برای ایجاد ویدیو، کاربران باید از منوی مدلها در Gemini، گزینه Veo 2 را انتخاب کنند (محل این گزینه در رابط کاربری ممکن است در طول توسعه تغییر کند). این ویژگی یک ویدیوی ۸ ثانیهای با وضوح ۷۲۰p ایجاد میکند که با فرمت MP4 و نسبت تصویر افقی ۱۶:۹ ذخیره میشود. گوگل همچنین خاطرنشان میکند که کاربران میتوانند محدودیتی برای تعداد ویدیوهایی که میتوانند در هر ماه ایجاد کنند، ایجاد کنند.
کاربران به سادگی صحنهای را که تصور میکنند، چه یک داستان کوتاه، چه یک ایده بصری یا یک صحنه خاص، توصیف میکنند. سپس Gemini آن ایدهها را به واقعیت تبدیل میکند. هرچه توضیحات کاربر دقیقتر باشد، ویدیوی نهایی بهتر خواهد بود.
گوگل میگوید کاربران میتوانند به راحتی ویدیوهای ساخته شده توسط Veo 2 را در پلتفرمهای رسانههای اجتماعی مانند TikTok یا YouTube Shorts به اشتراک بگذارند. با این حال، ویدیوهای ساخته شده توسط Veo 2 دارای نسبت تصویر ۱۶:۹ هستند که برای اشتراکگذاری در این پلتفرمهای ویدیویی کاملاً نامناسب است.

ویژگی ساخت ویدیو اکنون برای کاربران Gemini Advanced در سطح جهانی، هم در وب و هم در موبایل، در دسترس است. با این حال، این ویژگی فقط برای کسانی که در طرح Google One AI Premium مشترک شدهاند، در دسترس است و پشتیبانی کامل از زبانها در Gemini موجود است.
در حال حاضر، Veo 2 توسط گوگل به کاربران Gemini Advanced ارائه میشود و قیمت خدمات آن در ویتنام ۴۸۹۰۰۰ دونگ ویتنامی در ماه است.
علاوه بر Veo 2، گوگل همچنین یک ابزار هوش مصنوعی به نام Whisk Animate راهاندازی کرده است که به کاربران امکان میدهد تصاویر جدیدی با متن توصیفی ایجاد کنند، سپس این تصویر را به یک ویدیو با حرکت روان تبدیل کنند، اما مانند Veo 2 حداکثر طول آن ۸ ثانیه است.
Whisk، یک آزمایش Google Labs که در اواخر سال 2024 راهاندازی میشود، به کاربران کمک میکند تا به سرعت ایدههای جدید را از طریق متن و تصویر جستجو و تجسم کنند. کاربران میتوانند با ویژگی Whisk Animate به ایدههای خود جان ببخشند.
Whisk Animate با استفاده از فناوری Veo 2 امکان تبدیل عکسهای ثابت کاربران به ویدیوهای زنده ۸ ثانیهای را فراهم میکند. این ویژگی برای مشترکین Google One AI Premium در بیش از ۶۰ کشور در دسترس قرار گرفته است.

گوگل همچنین اعلام کرد که اقدامات قابل توجهی را برای اطمینان از یک تجربه ایمن در ساخت ویدیو اجرا کرده است. این شامل تیم قرمز و بررسی گسترده برای جلوگیری از ایجاد محتوایی است که سیاستهای گوگل را نقض میکند. علاوه بر این، هر ویدیویی که با Veo 2 ایجاد میشود با SynthID برچسبگذاری میشود، یک علامت دیجیتال که در هر فریم تعبیه شده است و به وضوح نشان میدهد که توسط هوش مصنوعی تولید شده است.
منبع: https://www.vietnamplus.vn/google-gioi-thieu-cong-cu-ai-chuyen-doi-van-ban-thanh-video-tu-gemini-advanced-post1033671.vnp
نظر (0)