Google to jedna z korporacji technologicznych, które aktywnie uczestniczą w wyścigu o rozwój narzędzi sztucznej inteligencji (AI), w tym chatbota Gemini, który ma konkurować z ChatGPT czy narzędziem do tworzenia obrazów opartym na tekście Imagen. Jednak zdolność Google do tworzenia filmów z tekstu opisowego jest nadal uważana przez społeczność technologiczną za znacznie gorszą od konkurencji.
Niedawno Google oficjalnie wprowadziło narzędzie wsparcia użytkownika Gemini Advanced, które umożliwia konwersję tekstu do filmów o wysokiej rozdzielczości i długości 8 sekund. Jednocześnie wprowadzono funkcję Whisk Animate, która pozwala przekształcać statyczne obrazy w żywe, animowane filmy o podobnej długości. Obie te funkcje są teraz dostępne dla użytkowników subskrybujących Google One AI Premium.
Google twierdzi, że Veo 2 to przełom w tworzeniu filmów, zaprojektowany z myślą o tworzeniu filmów o wysokiej rozdzielczości, szczegółowych, realistycznych i kinowych. Uchwycając fizykę świata rzeczywistego i ruchy człowieka, Veo 2 pozwala tworzyć płynne ruchy postaci, dynamiczne sceny i niezwykłe detale w szerokiej gamie tematów i stylów.
Aby utworzyć film, użytkownicy muszą wybrać Veo 2 z menu modeli w Gemini (lokalizacja tej opcji w interfejsie może ulec zmianie w trakcie rozwoju). Funkcja ta utworzy 8-sekundowy film w rozdzielczości 720p, eksportowany w formacie MP4 z proporcjami obrazu 16:9 w orientacji poziomej. Google zaznacza również, że użytkownicy mają limit miesięcznych limitów filmów.
Użytkownicy po prostu opisują scenę, którą sobie wyobrażają, czy to krótką historię, pomysł wizualny, czy konkretną scenę. Gemini następnie ożywia te pomysły. Im bardziej szczegółowy opis użytkownika, tym lepszy będzie finalny film.
Google twierdzi, że użytkownicy mogą łatwo udostępniać filmy stworzone przez Veo 2 w mediach społecznościowych, takich jak TikTok czy YouTube Shorts. Jednak filmy stworzone przez Veo 2 mają proporcje obrazu 16:9, co jest całkowicie nieodpowiednie do udostępniania na tych platformach.

Funkcja tworzenia filmów jest już dostępna dla użytkowników Gemini Advanced na całym świecie, zarówno w wersji internetowej, jak i mobilnej. Jest ona jednak dostępna tylko dla subskrybentów planu Google One AI Premium, z pełną obsługą języków w Gemini.
Obecnie usługa Veo 2 jest udostępniana przez Google użytkownikom Gemini Advanced, a cena usługi wynosi 489 000 VND miesięcznie w Wietnamie.
Oprócz Veo 2, Google wprowadziło także narzędzie oparte na sztucznej inteligencji o nazwie Whisk Animate, które umożliwia użytkownikom tworzenie nowych obrazów z opisowym tekstem, a następnie przekształcanie tego obrazu w płynnie poruszający się film. Maksymalna długość filmu, podobnie jak w przypadku Veo 2, wynosi jednak tylko 8 sekund.
Whisk, eksperyment Google Labs, którego premiera odbędzie się pod koniec 2024 roku, pomaga użytkownikom szybko odkrywać i wizualizować nowe pomysły za pomocą podpowiedzi tekstowych i graficznych. Użytkownicy mogą wcielić swoje pomysły w życie dzięki funkcji Whisk Animate.
Whisk Animate oferuje możliwość przekształcania nieruchomych zdjęć użytkowników w 8-sekundowe filmy na żywo za pomocą technologii Veo 2. Funkcja ta została udostępniona subskrybentom Google One AI Premium w ponad 60 krajach.

Google poinformował również o wdrożeniu znaczących środków w celu zapewnienia bezpieczeństwa podczas tworzenia filmów. Obejmują one m.in. red teaming i szczegółową weryfikację, aby zapobiec tworzeniu treści naruszających zasady Google. Ponadto każdy film utworzony za pomocą Veo 2 jest oznaczony tagiem SynthID, cyfrowym znakiem wodnym osadzonym w każdej klatce, który wyraźnie wskazuje, że został wygenerowany przez sztuczną inteligencję.
Źródło: https://www.vietnamplus.vn/google-gioi-thieu-cong-cu-ai-chuyen-doi-van-ban-thanh-video-tu-gemini-advanced-post1033671.vnp
Komentarz (0)