إنشاء مقاطع فيديو باستخدام Veo من Google DeepMind
تعرف على المزيد حول Veo، أحدث نموذج فيديو توليدي من Google DeepMind والذي يمكنه إنشاء مقاطع فيديو عالية الجودة بدقة 1080P من نصوص وصور ومطالبات فيديو بسهولة.

خلال عرض Google's 2024 I/O في 14 مايو، شاركت Google أحدث التحديثات من DeepMind، قسم الذكاء الاصطناعي الخاص بها. ومن أبرز التطورات المثيرة التي تم الكشف عنها هو نموذجهم الأحدث لإنشاء الفيديو، Veo. يمكن لـ Veo إنشاء مقاطع فيديو عالية الجودة بدقة 1080P بناءً على نصوص وصور ومطالبات فيديو. كما يسمح لك بتعديل مقاطع الفيديو التي تم إنشاؤها باستخدام مطالبات لاحقة. ينقل Veo الذكاء الاصطناعي التوليدي إلى المستوى التالي. دعونا نلقي نظرة فاحصة على الميزات التي يقدمها Veo.
Link to this sectionفهم قدرات Veo#
Veo هو نموذج توليدي للفيديو يستخدم فهماً عميقاً للغة والمرئيات لإنشاء مقاطع فيديو تتوافق بدقة مع الرؤية الإبداعية للمستخدم. يمكنه التقاط النغمة والتفاصيل في المطالبات الأطول بدقة، مما يجعله أداة قوية للمبدعين الذين يرغبون في تحويل أفكارهم إلى محتوى فيديو دقيق.
يمكن للمستخدم الحصول على تحكم إبداعي رائد في الفيديو الذي تم إنشاؤه لأن Veo يمكنه فهم تقنيات التصوير السينمائي مثل "الفواصل الزمنية" (timelapse) و"لقطات جوية للمناظر الطبيعية". هذا التحكم الإبداعي يجعل من الممكن للمستخدمين إنشاء مقاطع فيديو يتحرك فيها الأشخاص والحيوانات والأشياء بشكل طبيعي. مقاطع الفيديو التي ينتجها Veo جذابة ومرئية بشكل رائع، حيث يصعب اكتشاف أنها تم إنشاؤها بواسطة نموذج ذكاء اصطناعي.
يتجاوز Veo مجرد إنشاء مقاطع فيديو من المطالبات. إذا قمت بتوفير فيديو تم إنشاؤه مسبقاً وطلب تعديل محدد، مثل إدراج قوارب الكاياك في لقطة جوية لخط ساحلي، يمكن لـ Veo دمج هذا التغيير بسلاسة في الفيديو الأصلي، مما ينتج نسخة محدثة.

الشكل 1. مثال على تحرير الفيديو باستخدام Veo.
إليك بعض الميزات الإضافية التي يقدمها Veo:
- التحرير بالقناع (Masked Editing): يمكن لـ Veo مساعدتك في تحرير مناطق محددة من الفيديو.
- إنشاء الفيديو المستوحى من الصور: باستخدام صورة ومطالبة نصية، يمكن لـ Veo إنشاء مقاطع فيديو تعكس نمط الصورة وتتبع توجيهات المطالبة.
- مقاطع فيديو ممتدة: يمكن لـ Veo إنشاء وتمديد مقاطع الفيديو لتصل إلى 60 ثانية أو أكثر، سواء من مطالبة واحدة أو سلسلة من المطالبات التي تحكي قصة معاً.
Link to this sectionمقاطع فيديو خلابة أنتجها Veo#
دعونا نستعرض بعض مقاطع الفيديو التي أنتجها Veo ولماذا هي خلابة جداً.
يعتبر إنشاء فيديو بأسلوب الفاصل الزمني (timelapse) من مطالبة نصية قصيرة أمراً صعباً. عادةً، لا يمكن للمطالبة النصية القصيرة نقل التغييرات والحركات داخل مشهد الفاصل الزمني بدقة. لذا، من المذهل أن Veo يمكنه فهم ما يمكن توقعه من الفاصل الزمني دون الخوض في التفاصيل.

الشكل 2. إطار من فيديو الفاصل الزمني الذي أنتجه Veo.
وبالمثل، ليس من السهل إنشاء مقاطع فيديو ذات فيزياء دقيقة. يحتاج نموذج الذكاء الاصطناعي إلى فهم ومحاكاة قوانين الفيزياء مثل الجاذبية والزخم والتصادمات لجعل الحركات والتفاعلات تبدو واقعية. من المثير للإعجاب أن Veo قادر على نمذجة هذه الديناميكيات بدقة دون توجيه مفصل من المطالبات النصية.

الشكل 3. إطار من فيديو تم إنشاؤه باستخدام Veo يجسد بدقة فيزياء حركة قنديل البحر.
حتى الآن، لم نشاهد سوى مقاطع فيديو أقصر تم إنشاؤها بواسطة الذكاء الاصطناعي بسبب القيود الحسابية وتعقيد الحفاظ على التماسك عبر تسلسلات أطول. في عرض Google 2024 I/O، تم عرض قدرة Veo المذهلة على إنشاء مقاطع فيديو أطول وأكثر تعقيداً.

الشكل 4. إطارات من فيديو Veo الأطول المعروض في عرض Google 2024 I/O.
Link to this sectionكيف يعمل Veo؟#
مثل العديد من نماذج الذكاء الاصطناعي الأخرى، يقف Veo على أكتاف العمالقة. إنه يستمد من التطورات السابقة مثل Generative Query Network (GQN) و DVD-GAN و Imagen-Video و Phenaki و WALT و VideoPoet و Lumiere، بالإضافة إلى بنية Transformer الخاصة بـ Google و Gemini. بالإضافة إلى ذلك، ولتحسين قدرة Veo على تفسير المطالبات بدقة، كانت تعليقات كل فيديو في مجموعة بيانات التدريب الخاصة به أكثر تفصيلاً.
بناءً على سير عمل النموذج التقريبي الذي شاركته Google، إليك كيفية عمل Veo:
- مطالبات الإدخال: أنت توفر مطالبة نصية، واختيارياً، مطالبة صورة.
- الترميز (Encoding): تتم معالجة المطالبة النصية بواسطة مشفر UL2، وتتم معالجة مطالبة الصورة بواسطة مشفر صور.
- المطالبة المضمنة: يتم دمج مخرجات مشفرات النصوص والصور لتشكيل مطالبة مضمنة واحدة.
- نموذج الانتشار الكامن (Latent Diffusion Model): يتم تمرير المطالبة المضمنة وفيديو مضغوط مليء بالضجيج إلى هذا النموذج الذي يولد فيديو مضغوطاً باستخدامها. يستخدم Veo تمثيلات فيديو مضغوطة عالية الجودة، تُعرف باسم الكوامن (latents)، لتحسين الكفاءة مع الحفاظ على الجودة.
- فك التشفير (Decoding): الخطوة النهائية هي فك تشفير مخرج الفيديو بدقة 1080p من الفيديو المضغوط.

الشكل 5. كيف يعمل Veo.
Link to this sectionدراسة حالة مقنعة في صناعة الأفلام#
لاختبار قدرات Veo، تعاونت Google مع المخرج دونالد جلوفر واستوديوهاته الإبداعية، Gilga. استخدموا Veo لاستكشاف تقنيات إبداعية مختلفة، بما في ذلك لقطات التتبع الديناميكية، التي تتطلب حركة دقيقة وتأطيراً متسقاً.

الشكل 6. استخدام Veo في عملية صناعة الأفلام.
تقليدياً، يواجه صناع الأفلام قيوداً بسبب ضيق الوقت والموارد. مع Veo، تمكن جلوفر وفريقه من تجربة وإنشاء لقطات معقدة بسرعة، مما وفر بدوره مرونة وابتكاراً أكبر في عملية صناعة الأفلام.
مع Veo، تمكن جلوفر وفريقه من التجربة بسرعة وإنشاء لقطات معقدة قبل التصوير الفعلي. على سبيل المثال، كان بإمكانهم اختبار لقطات تتبع ديناميكية مختلفة لمعرفة كيف ستبدو وإجراء التعديلات حسب الحاجة. ساعدت عملية التصور المسبق هذه في صقل أفكارهم وضمان أن اللقطات ستعمل كما هو مقصود، مما قلل في النهاية من عدد اللقطات المطلوبة أثناء التصوير الفعلي. لقد تمكنوا من إنشاء دراسة حالة مقنعة لإثبات قدرة Veo على تغيير صناعة الأفلام. إنه يوفر طريقة أسرع وأكثر كفاءة لتحويل الرؤى الإبداعية إلى واقع.
Link to this sectionالاستخدامات العملية لـ Veo في مختلف الصناعات#
تتمتع قدرات Veo المتقدمة في إنشاء الفيديو بتطبيقات عملية عبر العديد من الصناعات. في الإعلان، يمكنه إنتاج إعلانات تجارية مخصصة وعالية الجودة للجماهير المستهدفة بسرعة، مما يوفر الوقت وتكاليف الإنتاج. في التعليم، يمكن لـ Veo إنشاء مقاطع فيديو تعليمية جذابة، مما يجعل المفاهيم المعقدة أسهل في الفهم.
يمكن للشركات استخدام Veo للتدريب والاتصالات المؤسسية. قد يستخدم متخصصو الرعاية الصحية Veo لمحاكاة الإجراءات الطبية لأغراض التدريب. وفيما يتعلق بالفعاليات والمؤتمرات الافتراضية، يمكن لـ Veo إنشاء محاكاة واقعية للأماكن والمسارح، مما يوفر للحضور تجربة جذابة وتفاعلية من أي مكان. يستفيد المنظمون من توسيع نطاق الوصول ورؤى قيمة للفعاليات المستقبلية. بفضل Veo، فُتحت فرص لا حصر لها.
عندما يكون لدى نموذج الذكاء الاصطناعي القدرة على التأثير في صناعات مختلفة، فمن المهم أن تضع في اعتبارك السلامة والذكاء الاصطناعي الأخلاقي. لتمكين اعتماد أوسع وضمان الاستخدام المسؤول، نفذت Google العديد من تدابير السلامة. يتم وضع علامة مائية على مقاطع الفيديو التي أنشأها Veo باستخدام SynthID، وهي أداة لوضع علامات مائية وتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تضمن SynthID الشفافية وتساعد في التخفيف من مخاطر الخصوصية وحقوق الطبع والنشر والتحيز. بخلاف ذلك، تمر جميع مقاطع الفيديو التي تم إنشاؤها عبر مرشحات الأمان وعمليات التحقق من الحفظ. هذه الضمانات تجعل من Veo أداة قيمة وأخلاقية تدعم إنتاج الفيديو المسؤول والمبتكر.
Link to this sectionكيفية الوصول إلى Veo#
في الأسابيع القادمة، ستبدأ Google في تقديم بعض ميزات Veo الرائدة لمنشئي محتوى مختارين من خلال VideoFX، وهي أداة جديدة متاحة على labs.google. تتيح هذه المبادرة الوصول المبكر إلى قدرات Veo المتقدمة في إنشاء الفيديو، مما يمنح المبدعين الفرصة لتجربة ميزاته المبتكرة. قائمة الانتظار الخاصة بـ Veo مفتوحة حالياً، وتدعو المبدعين المهتمين للتسجيل واستخدام أدوات Veo القوية في مشاريعهم.
Link to this sectionالمزيد عن تحديثات الذكاء الاصطناعي التوليدي لعام 2024 من DeepMind#
بصرف النظر عن Veo، قدمت DeepMind العديد من التحديثات المتطورة في الذكاء الاصطناعي التوليدي لعام 2024. أحد هذه التحديثات هو Imagen 3، وهو أكثر نماذج تحويل النص إلى صورة تقدماً لديهم حتى الآن. يتفوق Imagen 3 في إنشاء صور واقعية للغاية تشبه الحقيقة. إنه يفهم مطالبات اللغة الطبيعية بعمق ويلتقط التفاصيل المعقدة مع تقليل المصنوعات المرئية.

الشكل 7. صورة تم إنشاؤها باستخدام Imagen 3.
طورت DeepMind أيضاً Lyria، وهو أكثر نماذجها تقدماً لإنشاء الموسيقى بواسطة الذكاء الاصطناعي. كجزء من هذا الجهد، أنشأت DeepMind مجموعة من أدوات الذكاء الاصطناعي الموسيقي تسمى Music AI Sandbox. تمكن هذه الأدوات الموسيقيين والمنتجين من استكشاف إمكانيات إبداعية جديدة في تأليف الموسيقى وتحويل الصوت.

الشكل 8. مثال لواجهة المستخدم الخاصة بأدوات DeepMind للموسيقى بالذكاء الاصطناعي.
على غرار Veo، نفذت DeepMind العديد من تدابير السلامة فيما يتعلق بتحديثاتها الأخرى أيضاً. سيتم استخدام SynthID عبر هذه التحديثات كأداة لوضع علامات مائية وتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تعد هذه التحديثات من DeepMind بتحويل مختلف الصناعات من خلال تقديم أدوات متقدمة وفعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة.
Link to this sectionتصفح المرحلة التالية من الذكاء الاصطناعي التوليدي#
تمثل تطورات الذكاء الاصطناعي التوليدي لعام 2024 من DeepMind، بما في ذلك Veo و Imagen 3 و Lyria، قفزة كبيرة في قدرات الذكاء الاصطناعي. يغير Veo إنشاء الفيديو بقدرته على إنشاء مقاطع فيديو عالية الجودة بدقة 1080p من مطالبات بسيطة، مما يجعله أداة متعددة الاستخدامات لصانعي الأفلام ومنشئي المحتوى. يتألق Imagen 3 في إنتاج صور واقعية، بينما تقدم Lyria إمكانيات جديدة في إنشاء الموسيقى باستخدام أدوات الذكاء الاصطناعي المتقدمة.
تعد هذه التقنيات بتحويل مختلف الصناعات من خلال توفير أدوات فعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة. مع ضمانات السلامة مثل SynthID التي تضمن الاستخدام الأخلاقي، تواصل DeepMind توسيع حدود الذكاء الاصطناعي، مما يمهد الطريق لتطبيقات مبتكرة في المستقبل.
انغمس في الذكاء الاصطناعي بزيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. استكشف صفحات الحلول الخاصة بنا لمعرفة كيفية تطبيق الذكاء الاصطناعي في التصنيع والزراعة.






