A mesterséges intelligencia által létrehozott képalkotás paradoxona

A Google Nano Banana Pro képminősége meglehetősen valósághű. Fotó: Mashable .

A mesterséges intelligencia (MI) képalkotó technológiájának korai éveiben a kapott termékeket gyakran könnyen azonosítani lehetett hamisítványként. A túl sok ujjat tartalmazó képek, a torzított testrészletek vagy az irreális megvilágítás gyakori árulkodó jelek voltak.

Ez a korszak azonban a végéhez közeledik. A mesterséges intelligencia által vezérelt képalkotó eszközök egyre meggyőzőbbek, nem azáltal, hogy magukat a képeket tökéletesítik, hanem azáltal, hogy szándékosan olyan hibákat építenek be, amelyek a valódi fényképeket utánozzák.

Trendek a mesterséges intelligencia által létrehozott képalkotásban

Az OpenAI kevesebb mint öt évvel ezelőtt indította el DALL-E képgeneráló eszközét. Az első verzió csak 256 x 256 pixeles felbontású képeket tudott létrehozni, így inkább kísérleti jellegű volt, mint praktikus. A DALL-E 2-vel a felbontást 1024 x 1024 pixelre növelték, ami jelentősen realisztikusabb képeket eredményezett. A részletek azonban továbbra is mutatnak anomáliákat, az elmosódott felületektől kezdve a vizuálisan nehezen magyarázható tárgyakig.

Ugyanakkor a Midjourney és a Stable Diffusion is gyorsan felkeltette a kreatív közösség figyelmét. A következő néhány évben a modelleket folyamatosan fejlesztették, csökkentve a geometriai hibákat és javítva a szöveg láthatóságát. A mesterséges intelligencia nagy része azonban továbbra is „túl tökéletesnek” érződött, a megvilágítás, a kompozíció és a simaság inkább illusztrációkra, mint valódi fényképekre hasonlított.

Sok mesterséges intelligencia által létrehozott modell olyan képeket készít, amelyek túl realisztikusak ahhoz, hogy élethűek legyenek. Fotó: Bloomberg .

Ez a trend változóban van. A fejlesztők kezdenek a realizmus felé haladni, újraalkotva a közönséges eszközökkel, különösen a telefonkamerákkal készített fényképekben rejlő tökéletlenségeket.

2025 második felében a Google bevezette a Nano Banana képkészítő modellt a Gemini alkalmazásban, majd további fejlesztéseket vezetett be a Nano Banana Próval. A keresőóriás szerint ez a mai napig a legrealisztikusabb képmodell, amely képes a valós ismeretek hatékonyabb felhasználására és a szöveg hatékonyabb megjelenítésére.

Figyelemre méltó, hogy az ezzel a modellel készített képek közül sok nagyon hasonlít az okostelefonokkal készített képekre, a kontraszttól és a perspektívától kezdve a megvilágításon át az élességig.

Az okostelefonokkal készített fényképeknek megvan a saját, egyedi stílusuk. A szenzor és az objektív méretének korlátai miatt az okostelefonok a több képkockás feldolgozásra támaszkodnak a képminőség javítása érdekében. Ezáltal a képek kiemelt sötét területekkel, kiemelt részletekkel rendelkeznek, és optimalizálva vannak a kis képernyőkön való megjelenítéshez. Azáltal, hogy a mesterséges intelligencia elsajátítja ezt a stílust, a képek ismerősebbek lesznek a nézők számára, ezáltal csökkentve a mesterségesség érzetét.

A realisztikus képek paradoxona

A Google nem az egyetlen eset. Az Adobe Firefly egy „képjavító” opciót kínál, amely lehetővé teszi a felhasználók számára, hogy a mesterséges intelligencia által létrehozott képek finomhangolását a valódi fényképekhez hasonlóvá tegyék. A Meta egy „stílusbeállító” csúszkát is tartalmaz, amellyel a felhasználók beállíthatják a realizmus szintjét.

A videó területén olyan eszközöket, mint az OpenAI Sora vagy a Google Veo, használnak alacsony minőségű, szemcsés klipek készítésére, amelyek utánozzák a biztonsági kamerák képeit, és amelyek elég „rosszak” ahhoz, hogy hihetőek legyenek.

A mesterséges intelligencia segítségével készült videók egyre realisztikusabbak. Fotó: Bloomberg .

Egyes fotószakértők szerint a mesterséges intelligencia azon képessége, hogy ismerős hibákat szimulál, segíthet a modelleknek elkerülni a „szokatlan völgybe” esést, azt az állapotot, amelyben a képek nagyon hasonlítanak a valósághoz, mégis nyugtalanságot keltenek a nézőben. A valóság újraalkotása helyett a mesterséges intelligenciának egyszerűen utánoznia kell, hogyan rögzítenek képeket az emberek, annak minden inherens korlátjával és pontatlanságával együtt.

Ez a fejlemény jelentős kihívást jelent a valódi és a hamis képek megkülönböztetésének képességében. Mivel a mesterséges intelligencia által létrehozott képek egyre inkább hasonlítanak a hagyományos fényképekre, eredetük azonosítása egyre nehezebbé válik. Erre válaszul bevezették a C2PA tartalomhitelesítő szabványt, amely kriptográfiai aláírásokkal látja el a képeket, lehetővé téve a nyomon követhetőséget a létrehozás pillanatától kezdve.

Jelenleg az okostelefonokkal készített fényképek többségéről hiányoznak a hitelesítési információk, miközben a digitálisan szerkesztett képek és a teljes egészében mesterséges intelligencia által létrehozott képek közötti határvonal egyre elmosódik. Amíg a szabványok nem kerülnek egységesen bevezetésre a hardvereken és a megosztó platformokon, a felhasználóknak továbbra is szükséges óvatossággal kell eljárniuk a digitális térben található képekkel kapcsolatban.

Forrás: https://znews.vn/nghich-ly-cua-ai-tao-anh-post1612058.html