Yolo فيجن شنتشن
شنتشن
انضم الآن

إنشاء مقاطع فيديو باستخدام برنامج "فيو" من Google DeepMind

أبيرامي فينا

6 دقائق قراءة

15 مايو 2024

تعرّف على المزيد حول Veo، وهو أحدث نموذج فيديو تكويني من Google DeepMind يمكنه إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل من النصوص والصور ومطالبات الفيديو دون عناء.

خلال عرض Google I/O لعام 2024 في 14 مايو، شاركت Google آخر التحديثات من DeepMind، قسم الذكاء الاصطناعي لديها. كان أحد أكثر التطورات المثيرة التي تمت مشاركتها هو أحدث نموذج فيديو تكويني لديهم، Veo. يمكن ل Veo إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل استناداً إلى النصوص والصور ومطالبات الفيديو. حتى أنه يتيح لك تحرير مقاطع الفيديو التي تم إنشاؤها بمطالبات لاحقة. يرتقي Veo بالذكاء الاصطناعي التوليدي إلى المستوى التالي. دعنا نلقي نظرة فاحصة على الميزات التي يقدمها Veo. 

فهم قدرات Veo

Veo هو نموذج فيديو توليدي يستخدم فهمًا عميقًا للغة والمرئيات لإنشاء مقاطع فيديو تتطابق عن كثب مع الرؤية الإبداعية للمستخدم. يمكنه التقاط النبرة والتفاصيل الخاصة بالمطالبات الأطول بدقة، مما يجعله أداة قوية للمبدعين الذين يرغبون في تحويل أفكارهم إلى محتوى فيديو دقيق.

يمكن للمستخدم أن يتمتع بتحكم إبداعي رائد في الفيديو الذي تم إنشاؤه لأن Veo يمكنه فهم تقنيات الأفلام مثل "الفاصل الزمني" و "اللقطات الجوية للمناظر الطبيعية". يتيح هذا التحكم الإبداعي للمستخدمين إنشاء مقاطع فيديو يتحرك فيها الأشخاص والحيوانات والأشياء بشكل طبيعي. مقاطع الفيديو التي تم إنشاؤها بواسطة Veo جذابة وجذابة بصريًا لأنه من الصعب اكتشاف أنها تم إنشاؤها بواسطة نموذج الذكاء الاصطناعي.

يتجاوز Veo مجرد إنشاء مقاطع الفيديو من المطالبات. إذا قدمت مقطع فيديو تم إنشاؤه مسبقًا وطلب تعديل محدد، مثل إدراج قوارب الكاياك في عرض جوي لخط ساحلي، فيمكن لـ Veo دمج هذا التغيير بسلاسة في الفيديو الأصلي، وإنتاج نسخة محدثة.

الشكل 1. مثال على تحرير الفيديو باستخدام Veo.

فيما يلي بعض الميزات الأخرى التي تقدمها Veo:

  • التحرير المقنع: يمكن أن يساعدك Veo في تحرير مناطق محددة من الفيديو.
  • إنشاء فيديو مستوحى من الصور: باستخدام صورة ومطالبة نصية، يمكن لـ Veo إنشاء مقاطع فيديو تعكس نمط الصورة وتتبع توجيهات المطالبة.
  • مقاطع فيديو موسعة: يمكن لـ Veo إنشاء مقاطع فيديو وتمديدها إلى 60 ثانية أو أكثر، إما من مطالبة واحدة أو سلسلة من المطالبات التي تحكي قصة معًا.

مقاطع فيديو تحبس الأنفاس أنتجتها Veo

دعونا نستعرض بعض مقاطع الفيديو التي أنشأتها Veo ولماذا هي مذهلة للغاية. 

يعد إنشاء مقطع فيديو بفاصل زمني من مطالبة نصية قصيرة أمرًا صعبًا. عادةً، لا يمكن للمطالبة النصية القصيرة أن تنقل بدقة التغييرات والحركات داخل مشهد الفاصل الزمني. لذلك، من المدهش أن Veo يمكنه فهم ما يمكن توقعه من الفاصل الزمني دون الخوض في التفاصيل. 

الشكل 2. إطار من فيديو الفاصل الزمني الذي تم إنشاؤه بواسطة Veo.

وبالمثل، فإن إنشاء مقاطع فيديو بفيزياء دقيقة ليس بالأمر السهل. يحتاج نموذج الذكاء الاصطناعي إلى فهم ومحاكاة قوانين الفيزياء مثل الجاذبية والزخم والتصادمات لجعل الحركات والتفاعلات تبدو واقعية. من المثير للإعجاب أن Veo قادر على نمذجة هذه الديناميكيات بدقة دون توجيهات تفصيلية من مطالبات نصية.

الشكل 3. لقطة من فيديو تم إنشاؤه باستخدام Veo تلتقط بدقة فيزياء حركة قنديل البحر.

حتى الآن، لم نشاهد حتى الآن سوى مقاطع فيديو أقصر يتم إنشاؤها بواسطة الذكاء الاصطناعي بسبب القيود الحسابية وتعقيد الحفاظ على التماسك على مدى تسلسلات أطول. في عرض GoogleI/O لعام 2024، تم عرض قدرة Veo المذهلة على إنشاء مقاطع فيديو أطول وأكثر تعقيداً.

الشكل 4. لقطات من فيديو فيو الأطول الذي عُرض في عرض Google 2024 I/O.

كيف يعمل Veo؟

مثل العديد من نماذج الذكاء الاصطناعي الأخرى، يقف Veo على أكتاف العمالقة. فهو مستمد من التطورات السابقة مثل شبكة الاستعلامات التوليدية (GQN)، وDVD-GAN، وImagen-Video، وPhenaki، وWALT، وVideoPoet، وLumiere، بالإضافة إلى بنية Transformer المملوكة لشركة GoogleوGemini. بالإضافة إلى ذلك، ولتحسين قدرة Veo على تفسير المطالبات بدقة، كانت التسميات التوضيحية لكل مقطع فيديو في مجموعة بيانات التدريب الخاصة به أكثر تفصيلاً. 

بناءً على سير العمل النموذجي التقريبي الذي شاركته Google إليك كيفية عمل Veo:

  • مطالبات الإدخال: أنت تقدم مطالبة نصية، واختياريًا، مطالبة صورة.
  • الترميز: تتم معالجة المطالبة النصية بواسطة UL2 Encoder، وتتم معالجة مطالبة الصورة بواسطة أداة ترميز الصور.
  • المطالبة المضمنة: يتم دمج المخرجات من ترميز النص والصورة لتشكيل مطالبة مضمنة واحدة.
  • نموذج الانتشار الكامن: يتم تمرير الموجه المضمن ومقطع فيديو مضغوط مشوش إلى هذا النموذج الذي يقوم بإنشاء مقطع فيديو مضغوط باستخدامها. يستخدم Veo تمثيلات فيديو مضغوطة عالية الجودة، تُعرف باسم الكامنات، لتحسين الكفاءة مع الحفاظ على الجودة.
  • فك التشفير: الخطوة الأخيرة تقوم بفك تشفير مخرج الفيديو 1080p من الفيديو المضغوط.
الشكل 5. كيف يعمل Veo.

دراسة حالة مقنعة في صناعة الأفلام

لاختبار قدرات Veo، تعاونت Google مع صانع الأفلام دونالد جلوفر واستوديوه الإبداعي Gilga. وقد استخدموا Veo لاستكشاف تقنيات إبداعية مختلفة، بما في ذلك لقطات التتبع الديناميكية التي تتطلب حركة دقيقة وتأطيراً متناسقاً. 

الشكل 6. استخدام Veo في عملية صناعة الأفلام.

تقليديًا، يواجه صانعو الأفلام قيودًا بسبب ضيق الوقت والموارد. مع Veo، تمكن Glover وفريقه من تجربة وإنشاء لقطات معقدة بسرعة، مما وفر بدوره مزيدًا من المرونة والابتكار في عملية صناعة الأفلام.

باستخدام Veo، تمكن Glover وفريقه من تجربة وإنشاء لقطات معقدة بسرعة قبل التصوير الفعلي. على سبيل المثال، يمكنهم اختبار لقطات تتبع ديناميكية مختلفة لمعرفة كيف ستبدو وإجراء التعديلات حسب الحاجة. ساعدت عملية التصور المسبق هذه في تحسين أفكارهم والتأكد من أن اللقطات ستعمل على النحو المنشود، مما أدى في النهاية إلى تقليل عدد اللقطات المطلوبة أثناء التصوير الفعلي. لقد تمكنوا من إنشاء دراسة حالة مقنعة لإثبات قدرة Veo على تغيير صناعة الأفلام. فهو يوفر طريقة أسرع وأكثر كفاءة لتحقيق الرؤى الإبداعية.

الاستخدامات العملية لـ Veo في مختلف الصناعات 

تتمتع قدرات Veo المتقدمة في إنشاء الفيديو بتطبيقات عملية في العديد من الصناعات. في مجال الإعلان، يمكنه إنتاج إعلانات تجارية مخصصة وعالية الجودة بسرعة للجمهور المستهدف، مما يوفر الوقت وتكاليف الإنتاج. في التعليم، يمكن لـ Veo إنشاء مقاطع فيديو تعليمية جذابة، مما يجعل المفاهيم المعقدة أسهل للفهم. 

يمكن للشركات (Businesses) استخدام Veo للتدريب والاتصالات المؤسسية. قد يستخدم متخصصو الرعاية الصحية (Healthcare) Veo لمحاكاة الإجراءات الطبية لأغراض التدريب. فيما يتعلق بالأحداث والمؤتمرات الافتراضية، يمكن لـ Veo إنشاء محاكاة نابضة بالحياة للأماكن والمراحل، مما يوفر للحاضرين تجربة جذابة وتفاعلية من أي مكان. يستفيد المنظمون من الوصول الموسع والرؤى القيمة للأحداث المستقبلية. بفضل Veo، انفتحت فرص لا حصر لها.

عندما يكون لنموذج الذكاء الاصطناعي القدرة على التأثير في مختلف الصناعات، فمن المهم أن نضع في اعتبارنا السلامة والذكاء الاصطناعي الأخلاقي. ولتمكين اعتماده على نطاق أوسع وضمان الاستخدام المسؤول، نفذت Google العديد من إجراءات السلامة. يتم وضع علامة مائية على مقاطع الفيديو التي تم إنشاؤها بواسطة Veo باستخدام SynthID، وهي أداة لوضع علامة مائية وتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. يضمن SynthId الشفافية ويساعد على تخفيف مخاطر الخصوصية وحقوق النشر والتحيّز. بخلاف ذلك، تمر جميع مقاطع الفيديو التي تم إنشاؤها من خلال مرشحات الأمان وعمليات التحقق من الحفظ. هذه الضمانات تجعل من Veo أداة قيّمة وأخلاقية تدعم إنتاج الفيديو المسؤول والمبتكر.

أين يمكن الوصول إلى Veo؟

في الأسابيع المقبلة، ستبدأ Google في الأسابيع القادمة في تقديم بعض ميزات Veo الرائدة لمنشئي محتوى مختارين من خلال VideoFX، وهي أداة جديدة متاحة على labsgoogle تتيح هذه المبادرة إمكانية الوصول المبكر إلى إمكانات توليد الفيديو المتقدمة لفيو (Veo)، مما يتيح لمنشئي المحتوى فرصة تجربة ميزاته المبتكرة. قائمة الانتظار الخاصة بفيو مفتوحة حاليًا، وتدعو المبدعين المهتمين إلى التسجيل واستخدام أدوات فيو القوية في مشاريعهم.

المزيد حول تحديثات الذكاء الاصطناعي التوليدي لعام 2024 من DeepMind

بصرف النظر عن Veo، قدمت DeepMind العديد من التحديثات المتطورة في الذكاء الاصطناعي التوليدي لعام 2024. أحد هذه التحديثات هو Imagen 3، وهو نموذجهم الأكثر تقدمًا حتى الآن لتحويل النص إلى صورة. يتفوق Imagen 3 في إنشاء صور واقعية تشبه الصور الفوتوغرافية. إنه يفهم مطالبات اللغة الطبيعية بعمق ويلتقط تفاصيل معقدة مع تقليل التشوهات البصرية.

الشكل 7. صورة تم إنشاؤها باستخدام Imagen 3.

طورت DeepMind أيضًا Lyria، وهو نموذجها الأكثر تقدمًا لتوليد الموسيقى بالذكاء الاصطناعي. كجزء من هذا الجهد، أنشأت DeepMind مجموعة من أدوات الذكاء الاصطناعي الموسيقية تسمى Music AI Sandbox. تمكن هذه الأدوات الموسيقيين والمنتجين من استكشاف إمكانيات إبداعية جديدة في تأليف الموسيقى وتحويل الصوت.

الشكل 8. مثال على واجهة مستخدم لأدوات الموسيقى المدعومة بالذكاء الاصطناعي من DeepMind.

على غرار Veo، نفذت DeepMind العديد من تدابير السلامة فيما يتعلق بتحديثاتها الأخرى أيضًا. سيتم استخدام SynthID عبر هذه التحديثات كأداة لوضع العلامات المائية وتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تعد هذه التحديثات من DeepMind بتحويل مختلف الصناعات من خلال تقديم أدوات متقدمة وفعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة.

استكشاف المرحلة التالية من الذكاء الاصطناعي التوليدي

تمثل تطورات DeepMind في مجال الذكاء الاصطناعي التوليدي لعام 2024، بما في ذلك Veo و Imagen 3 و Lyria، قفزة كبيرة في قدرات الذكاء الاصطناعي. يحول Veo إنشاء الفيديو بقدرته على إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل من مطالبات بسيطة، مما يجعله أداة متعددة الاستخدامات لصانعي الأفلام ومنشئي المحتوى. يتألق Imagen 3 في إنتاج صور واقعية ضوئيًا، بينما يقدم Lyria إمكانيات جديدة في توليد الموسيقى باستخدام أدوات الذكاء الاصطناعي المتقدمة.

تعد هذه التقنيات بتحويل مختلف الصناعات من خلال توفير أدوات فعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة. مع وجود تدابير السلامة مثل SynthID التي تضمن الاستخدام الأخلاقي، تواصل DeepMind توسيع حدود الذكاء الاصطناعي، وتمهيد الطريق للتطبيقات المبتكرة في المستقبل.

انغمس في عالم الذكاء الاصطناعي بزيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. استكشف صفحات الحلول الخاصة بنا لمعرفة كيف يتم تطبيق الذكاء الاصطناعي في التصنيع و الزراعة.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا