إنشاء الصور باستخدام أدوات الذكاء الاصطناعي
في الماضي، كان إنشاء فيديو يتطلب كاميرا ومخرجًا وممثلين وساعات من التحرير. أما الآن، فببضع كلمات فقط على لوحة المفاتيح، يستطيع الذكاء الاصطناعي إنشاء لقطات حية وكاملة، بدءًا من الإعداد والإضاءة وصولًا إلى كل حركة.
وراء هذه "المعجزة" سلسلة من التقنيات المتطورة التي لا يعرف عنها سوى عدد قليل من الناس.
من النص إلى الصورة: الرحلة الأولى
وفقًا لبحث أجرته شركة Tuoi Tre Online ، عند كتابة بعض الجمل الوصفية، سيبدأ نظام الذكاء الاصطناعي بفهم محتواها باستخدام تقنية معالجة اللغة الطبيعية (NLP). ولا يقتصر الأمر على تمييز كل كلمة فحسب، بل يُحلل أيضًا السياق والمشاعر والعلاقات بين عناصر الجملة.
على سبيل المثال، إذا كتبت "مطر بعد الظهر على المدينة القديمة"، فإن الذكاء الاصطناعي سيعرف أن هذا مشهد خارجي، مع عناصر الطقس، وضوء بعد الظهر، ومناظر معمارية كلاسيكية.
بعد فهم المحتوى، ينتقل الذكاء الاصطناعي إلى مرحلة توليد الصورة الثابتة الأولية. ومن التقنيات الشائعة في هذه الخطوة نموذج الانتشار، حيث يرسم الذكاء الاصطناعي الصورة من خلفية بيضاء مشوشة حتى تظهر جميع تفاصيلها. ويُحسب كل بكسل لضمان مطابقة الإضاءة واللون والتركيب والأسلوب للوصف.
قليل من الناس يعرفون أنه خلال هذه المرحلة، يمكن للذكاء الاصطناعي إنشاء العشرات من الإصدارات التجريبية واختيار الأفضل قبل الاستمرار.
سرٌّ آخر هو أن الأنظمة المتقدمة تتضمن أيضًا قواعد بيانات ضخمة من الصور، مُدرَّبة من مصادر متعددة. هذا يمنح الذكاء الاصطناعي ذاكرةً لملايين التفاصيل، من طريقة انعكاس الضوء على الماء، إلى طريقة ميلان الأشجار في الريح، بحيث يبدو الإطار الأول طبيعيًا قدر الإمكان.
كيف يحول الذكاء الاصطناعي الصور إلى حركة سلسة
بمجرد اكتمال الإطار الأول، يكمن التحدي الأكبر في تحويله إلى سلسلة من الصور تبدو وكأنها تتحرك. يستخدم الذكاء الاصطناعي نماذج تنبؤ بالحركة لتصور كيفية تغير كل جسم بمرور الوقت. وهنا يأتي دور خوارزميات الفيزياء، التي تحاكي عوامل مثل الجاذبية والرياح والماء واهتزاز الكاميرا الافتراضي.
لمنع تقطع المشاهد، يستخدم الذكاء الاصطناعي تقنية استيفاء الإطارات . يتخيل إطارات وسيطة بين لحظتين، ثم يدمجها في حركة سلسة. إذا وُجدت شخصيات في الفيديو، يتعين على النظام أيضًا معالجة حركات الجسم وتعبيرات الوجه والتواصل البصري لتتناسب مع السياق.
سرٌّ غير معروف: قبل العرض، تُجري العديد من أنظمة الذكاء الاصطناعي أيضًا مرحلةً آليةً لما بعد الإنتاج. تُعدّل الألوان والإضاءة، وتُضيف تأثيرات ضبابية أو عميقة ليبدو الفيديو وكأنه مُصوّر بكاميرا احترافية. حتى أن بعض المنصات تُضيف ضوضاءً محيطيةً وموسيقى خلفية مناسبة، مما يجعل المنتج النهائي يبدو وكأنه مشهدٌ حقيقي.
بفضل الجمع بين العديد من التقنيات، من معالجة اللغة، والعرض ثلاثي الأبعاد، والمحاكاة الفيزيائية، إلى التحرير بعد الإنتاج، وببضعة أسطر نصية فقط، يمكن للمستخدمين إنشاء فيديو كامل. هذا التناغم يجعل الكثيرين يعتقدون أن الذكاء الاصطناعي "يُصوّر"، لكن في الواقع، كل شيء يُبنى من الصفر ، إطارًا بإطار، بسرعة لا تُضاهى.
المصدر: https://tuoitre.vn/hau-truong-ai-chuyen-van-ban-thanh-video-trong-vai-phut-20250815190549144.htm
تعليق (0)