(CLO) A Google nemrégiben piacra dobta új mesterséges intelligencia (MI) eszközét, a „Whisk”-et, amely lehetővé teszi a felhasználók számára, hogy fényképeket töltsenek fel a mesterséges intelligencia által generált kombinált képek lekéréséhez, még akkor is, ha a felhasználó nem ír be szöveget.
A Whisk mesterséges intelligenciát használ a feltöltött fotó témájának, kontextusának és stílusának kombinálására, így egy új és egyedibb képet hoz létre.
A Google a Whisket „kreatív eszközként” írja le, amely segít a felhasználóknak gyorsan új vizuális ötleteket generálni professzionális képszerkesztői ismeretek nélkül. A Google szerint az eszköz nem egy hagyományos képszerkesztő, hanem egy szórakoztató mesterséges intelligencia eszköz, amelynek célja a kreativitás és a gyors felfedezés ösztönzése.
Amikor egy felhasználó feltölt egy fotót, a Whisk a Google mesterséges intelligencia szolgáltatásának, a Gemininek és az Imagen 3 technológiának a kombinációját használja – ez egy olyan eszköz, amely képeket hoz létre a Google által a DeepMindtől megszerzett szövegből.
A Gemini elemzi a fotót és feliratot készít hozzá, majd az Imagen 3 kreatív módon kombinálja a fotó elemeit, megőrzi a téma „lényegét”, ahelyett, hogy pontosan lemásolná azt.
Habverő eszköz kezelőfelülete. Képernyőkép
Ez azt jelenti, hogy a végeredmény nem feltétlenül egyezik meg 100%-ban az eredeti képpel. Például az új képen szereplő alanyok magassága, frizurája vagy bőrtónusa eltérhet az eredetitől. A felhasználók azonban továbbra is módosíthatják a bemeneti információkat, megváltoztathatják a kontextust, a stílust, vagy több alanyt kombinálhatnak különböző képek létrehozásához.
A Whisk nemcsak szövegből, hanem stockfotókból is képes képeket létrehozni, bővítve a kreatív lehetőségeket anélkül, hogy a felhasználóknak fotószerkesztési tapasztalattal kellene rendelkezniük. „A Whisk célja, hogy segítsen a felhasználóknak kreatív módon remixelni a témákat, kontextusokat és stílusokat, lehetővé téve számukra a vizuális felfedezést ahelyett, hogy minden egyes képpontot aprólékosan szerkesztenének” – mondta Thomas Iljic, a Google Labs termékmenedzsment igazgatója.
Bár a Whisk fejlesztése még korai szakaszban van, az eszközt weboldalként indították el a Google Labs-ben, és már elérhető az Egyesült Államokbeli felhasználók számára.
Dan Ives, a Wedbush Securities ügyvezető igazgatója és vezető elemzője szerint a Whisk egy újabb „erődemonstrációs pillanatot” jelent a Google számára a technológiai versenyben.
Ives azt is megjegyezte, hogy a DeepMind, a Google által 2014-ben felvásárolt mesterséges intelligencia laboratórium kulcsfontosságú eszköz a Google mesterséges intelligencia területén betöltött pozíciójának megőrzésében. A mesterséges intelligencia termékei, beleértve a Whisket is, kulcsfontosságú részét képezik a Google termékfejlesztési stratégiájának az elkövetkező években, és várhatóan 2025-ig számos új termék jelenik meg.
A Whisk eszköz új utakat nyit a mesterséges intelligencia használatára kreatív termékek létrehozásához minimális felhasználói beavatkozással. Ez jól mutatja a mesterséges intelligencia fejlődését a vizuális elemek megértésében és kreatív kombinálásában.
A Whisk a nagy technológiai vállalatok, köztük a Google és az OpenAI körében egyre növekvő trend része, hogy fogyasztóknak szánt mesterséges intelligenciaeszközöket fejlesszenek ki, amelyek célja új kreatív élmények lehetővé tétele, a képek, szövegek és videók generálásától kezdve. Az OpenAI nemrégiben bemutatta a Sora nevű szöveg-videó generátort, amely közvetlenül a Whisk versenytársa.
Ngoc Anh (a CNN, a The Verge és a ZDNET szerint)
[hirdetés_2]
Forrás: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html
Hozzászólás (0)