(CLO) Společnost Google právě spustila nový nástroj umělé inteligence (AI) s názvem „Whisk“, který uživatelům umožňuje nahrávat fotografie a načítat tak kombinované obrázky generované umělou inteligencí, a to i v případě, že uživatel nezadá žádný text.
Whisk využívá umělou inteligenci ke kombinaci objektu, kontextu a stylu nahrané fotografie a vytváří tak nový a jedinečnější obrázek.
Google popisuje Whisk jako „kreativní nástroj“, který pomáhá uživatelům rychle generovat nové vizuální nápady bez nutnosti profesionálních dovedností v úpravě fotografií. Podle Googlu se nejedná o tradiční editor obrázků, ale spíše o zábavný nástroj s umělou inteligencí, jehož cílem je podnítit kreativitu a rychlé objevování .
Když uživatel nahraje fotografii, Whisk použije kombinaci služby umělé inteligence od Googlu, Gemini, a technologie Imagen 3 – nástroje, který vytváří obrázky z textu, který Google získal od DeepMind.
Gemini fotografii analyzuje a vytvoří popisek, poté Imagen 3 kreativním způsobem zkombinuje prvky této fotografie, přičemž zachovává „podstatu“ objektu, spíše než aby jej přesně kopíroval.
Rozhraní nástroje Whisk. Snímek obrazovky.
To znamená, že konečný výsledek nemusí být 100% identický s původním obrázkem. Například výška, účes nebo odstín pleti subjektů na novém obrázku se mohou lišit od originálu. Uživatelé však stále mohou upravovat vstupní informace, měnit scénu, styl nebo kombinovat více subjektů a vytvářet tak odlišné snímky.
Whisk dokáže vytvářet obrázky nejen z textu, ale i z RAW obrázků, čímž rozšiřuje tvůrčí možnosti, aniž by uživatelé museli mít jakékoli zkušenosti s úpravou fotografií. „Whisk je navržen tak, aby uživatelům pomohl kreativně kombinovat náměty, kontexty a styly a umožnil jim vizuálně prozkoumávat, spíše než pečlivě upravovat každý pixel,“ řekl Thomas Iljic, ředitel produktového managementu v Google Labs.
Přestože je Whisk v rané fázi vývoje, nástroj byl spuštěn jako webová stránka v Google Labs a nyní je k dispozici uživatelům v USA.
Dan Ives, výkonný ředitel a hlavní analytik společnosti Wedbush Securities, uvedl, že Whisk představuje pro Google další „demonstraci síly“ v technologickém závodě.
Ives také poznamenal, že DeepMind, laboratoř umělé inteligence, kterou Google získal v roce 2014, je klíčovým aktivem pro udržení pozice Googlu v oblasti umělé inteligence. Produkty umělé inteligence, včetně Whisk, jsou klíčovou součástí strategie vývoje produktů Googlu v nadcházejících letech, přičemž do roku 2025 se očekává uvedení několika nových produktů na trh.
Nástroj Whisk otevírá nové možnosti využití umělé inteligence k vytváření kreativních produktů s minimálním zásahem uživatele. To ukazuje pokrok umělé inteligence v chápání a kreativním kombinování vizuálních prvků.
Whisk je součástí rostoucího trendu mezi velkými technologickými společnostmi, včetně Googlu a OpenAI, vyvíjet nástroje umělé inteligence zaměřené na spotřebitele, jejichž cílem je umožnit nové kreativní zážitky, od generování obrázků, textu až po videa . OpenAI také nedávno představila generátor textu na video s názvem Sora, který přímo konkuruje platformě Whisk.
Ngoc Anh (podle CNN, The Verge, ZDNET)
Zdroj: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html
Komentář (0)