"خلف الكواليس" للذكاء الاصطناعي الذي يحول النص إلى فيديو في دقائق

AI - Ảnh 1. — إنشاء الصور باستخدام أدوات الذكاء الاصطناعي

في الماضي، كان إنشاء فيديو يتطلب كاميرا ومخرجًا وممثلين وساعات من التحرير. أما الآن، فببضع كلمات فقط على لوحة المفاتيح، يستطيع الذكاء الاصطناعي إنشاء لقطات حية وكاملة من الخلفية، مع إضاءة لكل حركة صغيرة.

وراء هذه "المعجزة" سلسلة من التقنيات المتطورة التي لا يعرف عنها سوى عدد قليل من الناس.

من النص إلى الصورة: الرحلة الأولى

وفقًا لبحث أجرته شركة Tuoi Tre Online ، عند كتابة بعض الجمل الوصفية، يقوم نظام الذكاء الاصطناعي أولًا بقراءة المحتوى باستخدام تقنية معالجة اللغة الطبيعية (NLP). ولا يقتصر دوره على التعرف على كل كلمة فحسب، بل يُحلل أيضًا السياق والمشاعر والعلاقات بين عناصر الجملة.

على سبيل المثال، إذا كتبت "مطر بعد الظهر في المدينة القديمة"، فإن الذكاء الاصطناعي سوف يعرف أن هذا مشهد خارجي، مع عناصر الطقس، وضوء بعد الظهر، وبيئة معمارية كلاسيكية.

بعد فهم المحتوى، ينتقل الذكاء الاصطناعي إلى مرحلة توليد الصورة الثابتة الأولية. في هذه الخطوة، تُستخدم تقنية نموذج الانتشار، حيث يُلوّن الذكاء الاصطناعي الصورة من خلفية بيضاء خافتة حتى تظهر جميع تفاصيلها. يُحسَب كل بكسل لضمان دقة الإضاءة واللون والتركيب والأسلوب.

قليل من الناس يعرفون أنه خلال هذه المرحلة، يمكن للذكاء الاصطناعي إنشاء العشرات من الإصدارات التجريبية واختيار الأفضل قبل الاستمرار.

سرٌّ آخر هو أن الأنظمة المتقدمة تتضمن أيضًا قواعد بيانات ضخمة للصور، مُدرَّبة من مصادر متعددة. هذا يمنح الذكاء الاصطناعي ذاكرةً لملايين التفاصيل، من كيفية انعكاس الضوء على الماء، إلى كيفية ميل الأشجار في الريح، بحيث يكون الإطار الأول طبيعيًا قدر الإمكان.

كيف يحول الذكاء الاصطناعي الصور إلى حركة سلسة

بمجرد اكتمال الإطار الأول، يكمن التحدي الأكبر في تحويله إلى سلسلة متواصلة من الصور تُوحي بالحركة. يستخدم الذكاء الاصطناعي نماذج التنبؤ بالحركة لتصور كيفية تغير كل جسم بمرور الوقت. وهنا يأتي دور خوارزميات الفيزياء، التي تُحاكي عوامل مثل الجاذبية والرياح والماء أو اهتزاز الكاميرا الافتراضي.

لمنع تقطع المشاهد، يستخدم الذكاء الاصطناعي تقنية استيفاء الإطارات . يتخيل لقطات وسيطة بين لحظتين، ثم يدمجها في حركة سلسة. إذا وُجدت شخصيات في الفيديو، يتعين على النظام أيضًا معالجة حركات الجسم وتعبيرات الوجه وحركات العين لتتناسب مع السياق.

سرٌّ غير معروف: قبل العرض، تُجري العديد من أنظمة الذكاء الاصطناعي أيضًا مرحلةً آليةً لما بعد الإنتاج. تُعدّل الألوان والإضاءة، وتُضيف تأثيرات ضبابية أو عميقة ليبدو الفيديو وكأنه مُصوّر بكاميرا احترافية. حتى أن بعض المنصات تُضيف ضوضاءً محيطيةً وموسيقى خلفية مناسبة، مما يجعل المنتج النهائي يبدو وكأنه مشهدٌ حقيقي.

بفضل الجمع بين العديد من التقنيات، من معالجة اللغة، والعرض ثلاثي الأبعاد، والمحاكاة الفيزيائية، إلى التحرير بعد الإنتاج، وببضعة أسطر نصية فقط، يمكن للمستخدمين إنشاء فيديو كامل. هذا التناغم يجعل الكثيرين يعتقدون أن الذكاء الاصطناعي "يُصوّر"، لكن في الواقع، كل شيء يُبنى من الصفر ، إطارًا بإطار، بسرعة لا تُضاهى.

العودة إلى الموضوع

توان في

المصدر: https://tuoitre.vn/hau-truong-ai-chuyen-van-ban-thanh-video-trong-vai-phut-20250815190549144.htm