A Google elindított egy mesterséges intelligenciával működő képkészítő eszközt valódi fotókból.

(CLO) A Google nemrégiben piacra dobta új mesterséges intelligencia (MI) eszközét, a „Whist”-et, amely lehetővé teszi a felhasználók számára, hogy fényképeket töltsenek fel a mesterséges intelligencia által generált kompozit képek megjelenítéséhez, akár szöveg beírása nélkül is.

A Whisk mesterséges intelligenciát használ a feltöltött fotó témájának, hátterének és stílusának kombinálására, ezáltal friss és egyedi képet hozva létre.

A Google a Whisket „kreatív eszközként” írja le, amely segít a felhasználóknak gyorsan új vizuális ötleteket generálni professzionális képszerkesztői ismeretek nélkül. A Google szerint ez az eszköz nem egy hagyományos képszerkesztő, hanem egy izgalmas mesterséges intelligencia alapú eszköz, amelynek célja a kreativitás és a gyors felfedezés ösztönzése.

Amikor egy felhasználó feltölt egy képet, a Whisk a Google mesterséges intelligencia szolgáltatásának, a Gemininek és az Imagen 3 technológiának – egy szövegből képpé alakító eszköznek, amelyet a Google a DeepMindtől vásárolt – a kombinációját használja.

A Gemini elemzi a képet és feliratot generál hozzá, majd az Imagen 3 kreatívan kombinálja a kép elemeit, megőrzi a téma "lényegét" a pontos másolat helyett.

A Google piacra dob egy eszközt, amellyel mesterséges intelligenciával épített képeket lehet létrehozni valódi fotókból (1. ábra). — Habverő eszköz kezelőfelülete. Képernyőkép.

Ez azt jelenti, hogy a végeredmény nem biztos, hogy 100%-ban megegyezik az eredeti képpel. Például az új képen szereplő alanyok magassága, frizurája vagy bőrtónusa eltérhet az eredetitől. A felhasználók azonban továbbra is módosíthatják a bemeneti információkat, megváltoztathatják a hátteret, a stílust, vagy több témát kombinálhatnak különböző képek létrehozásához.

A Whisk nemcsak szövegből, hanem eredeti képekből is képes képeket generálni, bővítve a kreatív lehetőségeket anélkül, hogy a felhasználóknak fotószerkesztési tapasztalattal kellene rendelkezniük. Thomas Iljic, a Google Labs termékmenedzsment igazgatója kijelentette: „A Whisk célja, hogy segítsen a felhasználóknak kreatívan remixelni a témákat, háttereket és stílusokat, lehetővé téve számukra a vizuális felfedezést ahelyett, hogy minden egyes pixelt aprólékosan szerkesztenének.”

Bár a Whisk még a fejlesztés korai szakaszában van, az eszközt weboldalként indították el a Google Labs-ben, és most már elérhető az Egyesült Államokbeli felhasználók számára.

Dan Ives, a Wedbush Securities ügyvezető igazgatója és vezető elemzője szerint a Whisk egy újabb „erős pillanatot” jelent a Google számára a technológiai versenyben.

Ives azt is megjegyezte, hogy a DeepMind, a Google által 2014-ben felvásárolt mesterséges intelligencia laboratórium kulcsfontosságú eszköz, amely segít a Google-nek megőrizni pozícióját a mesterséges intelligencia területén. A mesterséges intelligencia termékei, beleértve a Whisket is, kulcsfontosságú részét képezik a Google termékfejlesztési stratégiájának az elkövetkező években, és számos új termék várhatóan 2025-ben jelenik meg.

A Whisk eszközei új utakat nyitnak meg a mesterséges intelligencia használatában, hogy minimális felhasználói beavatkozással innovatív termékeket hozhassanak létre. Ez jól mutatja a mesterséges intelligencia fejlődését a vizuális elemek megértésében és kreatív kombinálásában.

A Whisk része annak az erős trendnek a nagy technológiai vállalatok körében, mint például a Google és az OpenAI, amelyek mesterséges intelligencia alapú eszközöket fejlesztenek a fogyasztók számára. Ezek az eszközök innovatív kreatív élményeket kívánnak nyújtani, a kép- és szövegkészítéstől a videókig . A közelmúltban az OpenAI bemutatott egy Sora nevű szöveg-videó készítő eszközt is, amely a Whisk közvetlen versenytársa.

Ngoc Anh (a CNN, a The Verge és a ZDNET szerint)

[hirdetés_2]
Forrás: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html