پارادوکس خلق تصویر با هوش مصنوعی

بسیاری از مدل‌های هوش مصنوعی به جای بهبود کیفیت تصویر، به طور فعال نویز، نور ضعیف و اعوجاج بصری را شبیه‌سازی می‌کنند تا واقع‌گرایی را افزایش دهند.

ZNews•17/12/2025

نانو موز پرو گوگل کیفیت تصویر نسبتاً واقعی دارد. عکس: Mashable

در سال‌های اولیه‌ی فناوری تصویربرداری هوش مصنوعی (AI)، محصولات حاصل اغلب به راحتی به عنوان جعلی قابل تشخیص بودند. تصاویری با تعداد انگشت‌های زیاد، جزئیات تحریف‌شده‌ی بدن یا نورپردازی غیرواقعی، نشانه‌های رایجی از جعلی بودن بودند.

با این حال، آن دوران رو به پایان است. ابزارهای خلق تصویر مبتنی بر هوش مصنوعی به طور فزاینده‌ای قانع‌کننده می‌شوند، نه با بی‌نقص کردن خود تصویر، بلکه با گنجاندن عمدی نقص‌هایی که عکس‌های واقعی را تقلید می‌کنند.

روندهای موجود در خلق تصاویر با هوش مصنوعی

OpenAI ابزار تولید تصویر DALL-E خود را کمتر از پنج سال پیش عرضه کرد. نسخه اول تنها می‌توانست تصاویری با وضوح ۲۵۶ در ۲۵۶ پیکسل ایجاد کند، که آن را بیشتر تجربی می‌کرد تا کاربردی. با DALL-E 2، وضوح به ۱۰۲۴ در ۱۰۲۴ پیکسل افزایش یافت و در نتیجه تصاویر به طور قابل توجهی واقعی‌تر شدند. با این حال، جزئیات هنوز نشانه‌هایی از ناهنجاری‌ها را نشان می‌دهند، از سطوح تار گرفته تا اشیاء که توضیح بصری آنها دشوار است.

در همان زمان، Midjourney و Stable Diffusion نیز به سرعت مورد توجه جامعه خلاق قرار گرفتند. در طول چند سال بعد، مدل‌ها به طور مداوم بهبود یافتند، خطاهای هندسی کاهش یافتند و خوانایی متن افزایش یافت. با این حال، بسیاری از هوش مصنوعی هنوز "بیش از حد بی‌نقص" به نظر می‌رسید، به طوری که نورپردازی، ترکیب‌بندی و نرمی تصویر بیشتر شبیه تصاویر بود تا عکس‌های واقعی.

بسیاری از مدل‌های هوش مصنوعی تصاویری تولید می‌کنند که بیش از حد واقعی هستند تا واقعی به نظر برسند. عکس: بلومبرگ .

این روند در حال تغییر است. توسعه‌دهندگان شروع به حرکت به سمت واقع‌گرایی کرده‌اند و نقص‌های ذاتی عکس‌های گرفته شده با دستگاه‌های رایج، به ویژه دوربین‌های تلفن، را بازسازی می‌کنند.

در نیمه دوم سال ۲۰۲۵، گوگل مدل ایجاد تصویر Nano Banana را در برنامه Gemini معرفی کرد و پس از آن ارتقاءهای بیشتری را با Nano Banana Pro انجام داد. به گفته این غول جستجو، این واقع‌گرایانه‌ترین مدل تصویر تا به امروز است که توانایی استفاده از دانش دنیای واقعی و نمایش متن به طور مؤثرتر را دارد.

نکته قابل توجه این است که بسیاری از تصاویر تولید شده توسط این مدل، از کنتراست و پرسپکتیو گرفته تا نورپردازی و وضوح، شباهت زیادی به تصاویر گرفته شده با گوشی‌های هوشمند دارند.

عکس‌های گرفته شده با دوربین‌های گوشی‌های هوشمند سبک منحصر به فرد خود را دارند. به دلیل محدودیت‌های اندازه حسگر و لنز، گوشی‌های هوشمند برای بهبود کیفیت تصویر به پردازش چند فریمی متکی هستند. این امر باعث ایجاد عکس‌هایی با نواحی تاریک بهبود یافته، جزئیات برجسته و بهینه شده برای نمایش در صفحه نمایش‌های کوچک می‌شود. یادگیری هوش مصنوعی این سبک، تصاویر را برای بینندگان آشناتر می‌کند و در نتیجه احساس مصنوعی بودن را کاهش می‌دهد.

پارادوکس تصاویر واقع‌گرایانه

گوگل تنها مورد نیست. ادوبی فایرفلای گزینه «بهبود تصویر» را ارائه می‌دهد که به کاربران امکان می‌دهد جلای تصاویر هوش مصنوعی را کاهش دهند تا به عکس‌های واقعی نزدیک شوند. متا همچنین شامل یک اسلایدر «طراحی» است که به کاربران امکان می‌دهد سطح واقع‌گرایی را تنظیم کنند.

در حوزه ویدیو ، ابزارهایی مانند Sora از OpenAI یا Veo از گوگل برای ایجاد کلیپ‌های بی‌کیفیت و نویزدار استفاده می‌شوند که تصاویر دوربین‌های امنیتی را تقلید می‌کنند، تصاویری که به اندازه کافی «بد» هستند که باورپذیر باشند.

ویدیوهای تولید شده با استفاده از هوش مصنوعی به طور فزاینده‌ای واقع‌گرایانه می‌شوند. عکس: بلومبرگ .

به گفته برخی از کارشناسان عکاسی، توانایی هوش مصنوعی در شبیه‌سازی نقص‌های آشنا می‌تواند به مدل‌ها کمک کند تا از افتادن در «دره غیرمعمول» جلوگیری کنند، وضعیتی که در آن تصاویر شباهت زیادی به واقعیت دارند اما همچنان حس ناراحتی را برای بیننده ایجاد می‌کنند. هوش مصنوعی به جای بازآفرینی واقعیت، صرفاً باید نحوه ثبت تصاویر توسط انسان‌ها را با تمام محدودیت‌ها و نادرستی‌های ذاتی‌شان تقلید کند.

این پیشرفت، چالش مهمی را برای توانایی تشخیص تصاویر واقعی از جعلی ایجاد می‌کند. از آنجایی که تصاویر هوش مصنوعی به طور فزاینده‌ای شبیه عکس‌های معمولی می‌شوند، شناسایی منشأ آنها دشوارتر می‌شود. در پاسخ به این، استاندارد اعتبارنامه‌های محتوای C2PA برای افزودن امضاهای رمزنگاری به تصاویر در حال اجرا است و امکان ردیابی را از لحظه ایجاد فراهم می‌کند.

در حال حاضر، اکثر عکس‌های گرفته شده با گوشی‌های هوشمند فاقد اطلاعات احراز هویت هستند، در حالی که مرز بین تصاویر ویرایش‌شده دیجیتالی و تصاویری که کاملاً توسط هوش مصنوعی ایجاد شده‌اند، به طور فزاینده‌ای مبهم می‌شود. تا زمانی که استانداردها به طور یکنواخت در سراسر سخت‌افزار و پلتفرم‌های اشتراک‌گذاری اجرا نشوند، کاربران همچنان باید در مورد تصاویر در فضای دیجیتال احتیاط لازم را به عمل آورند.

منبع: https://znews.vn/nghich-ly-cua-ai-tao-anh-post1612058.html