(CLO) A Google nemrégiben piacra dobta új mesterséges intelligencia (MI) eszközét, a „Whist”-et, amely lehetővé teszi a felhasználók számára, hogy fényképeket töltsenek fel a mesterséges intelligencia által generált kompozit képek megjelenítéséhez, akár szöveg beírása nélkül is.
A Whisk mesterséges intelligenciát használ a feltöltött fotó témájának, hátterének és stílusának kombinálására, ezáltal friss és egyedi képet hozva létre.
A Google a Whisket „kreatív eszközként” írja le, amely segít a felhasználóknak gyorsan új vizuális ötleteket generálni professzionális képszerkesztői ismeretek nélkül. A Google szerint ez az eszköz nem egy hagyományos képszerkesztő, hanem egy izgalmas mesterséges intelligencia alapú eszköz, amelynek célja a kreativitás és a gyors felfedezés ösztönzése.
Amikor egy felhasználó feltölt egy képet, a Whisk a Google mesterséges intelligencia szolgáltatásának, a Gemininek és az Imagen 3 technológiának – egy szövegből képpé alakító eszköznek, amelyet a Google a DeepMindtől vásárolt – a kombinációját használja.
A Gemini elemzi a képet és feliratot generál hozzá, majd az Imagen 3 kreatívan kombinálja a kép elemeit, megőrzi a téma "lényegét" a pontos másolat helyett.
Habverő eszköz kezelőfelülete. Képernyőkép.
Ez azt jelenti, hogy a végeredmény nem biztos, hogy 100%-ban megegyezik az eredeti képpel. Például az új képen szereplő alanyok magassága, frizurája vagy bőrtónusa eltérhet az eredetitől. A felhasználók azonban továbbra is módosíthatják a bemeneti információkat, megváltoztathatják a hátteret, a stílust, vagy több témát kombinálhatnak különböző képek létrehozásához.
A Whisk nemcsak szövegből, hanem eredeti képekből is képes képeket generálni, bővítve a kreatív lehetőségeket anélkül, hogy a felhasználóknak fotószerkesztési tapasztalattal kellene rendelkezniük. Thomas Iljic, a Google Labs termékmenedzsment igazgatója kijelentette: „A Whisk célja, hogy segítsen a felhasználóknak kreatívan remixelni a témákat, háttereket és stílusokat, lehetővé téve számukra a vizuális felfedezést ahelyett, hogy minden egyes pixelt aprólékosan szerkesztenének.”
Bár a Whisk még a fejlesztés korai szakaszában van, az eszközt weboldalként indították el a Google Labs-ben, és most már elérhető az Egyesült Államokbeli felhasználók számára.
Dan Ives, a Wedbush Securities ügyvezető igazgatója és vezető elemzője szerint a Whisk egy újabb „erős pillanatot” jelent a Google számára a technológiai versenyben.
Ives azt is megjegyezte, hogy a DeepMind, a Google által 2014-ben felvásárolt mesterséges intelligencia laboratórium kulcsfontosságú eszköz, amely segít a Google-nek megőrizni pozícióját a mesterséges intelligencia területén. A mesterséges intelligencia termékei, beleértve a Whisket is, kulcsfontosságú részét képezik a Google termékfejlesztési stratégiájának az elkövetkező években, és számos új termék várhatóan 2025-ben jelenik meg.
A Whisk eszközei új utakat nyitnak meg a mesterséges intelligencia használatában, hogy minimális felhasználói beavatkozással innovatív termékeket hozhassanak létre. Ez jól mutatja a mesterséges intelligencia fejlődését a vizuális elemek megértésében és kreatív kombinálásában.
A Whisk része annak az erős trendnek a nagy technológiai vállalatok körében, mint például a Google és az OpenAI, amelyek mesterséges intelligencia alapú eszközöket fejlesztenek a fogyasztók számára. Ezek az eszközök innovatív kreatív élményeket kívánnak nyújtani, a kép- és szövegkészítéstől a videókig . A közelmúltban az OpenAI bemutatott egy Sora nevű szöveg-videó készítő eszközt is, amely a Whisk közvetlen versenytársa.
Ngoc Anh (a CNN, a The Verge és a ZDNET szerint)
[hirdetés_2]
Forrás: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html






Hozzászólás (0)