يولو فيجن شنتشن
شنتشن
انضم الآن

نظرة من وراء الكواليس على الذكاء الاصطناعي البصري في البث المباشر

أبيرامي فينا

قراءة لمدة 3 دقائق

10 ديسمبر 2024

اكتشف كيف تعزز رؤية الكمبيوتر منصات البث من خلال التوصيات المخصصة وتحليل المحتوى في الوقت الفعلي لتجربة مستخدم أفضل.

هل تساءلت يومًا كيف تجعل منصات البث من السهل جدًا مشاهدة برامجك المفضلة؟ منذ وقت ليس ببعيد، كانت الترفيه مختلفة تمامًا. كانت جداول التلفزيون ثابتة، وشاهد المشاهدون عمومًا ما يتم عرضه على الهواء. لقد غيرت خدمات البث هذا النموذج. تُظهر الاستطلاعات أن قيمة سوق بث الفيديو العالمي بلغت 106.83 مليار دولار في عام 2023، ومن المتوقع أن تصل إلى 865.85 مليار دولار بحلول عام 2034.

لقد كان الذكاء الاصطناعي (AI) محوريًا في هذا التطور. على وجه التحديد، نشهد زيادة في ابتكارات الرؤية الحاسوبية في هذا المجال. يتيح الذكاء الاصطناعي البصري لمنصات البث فهم محتوى الفيديو وتفسيره من خلال تحليل الإطارات والتعرف على الأنماط. 

من خلال معالجة البيانات المرئية، تساعد الرؤية الحاسوبية المنصات في إنشاء توصيات أكثر ذكاءً، وتحسين تنظيم المحتوى، وحتى تعزيز الميزات التفاعلية. في هذه المقالة، سوف نستكشف كيف تساعد الرؤية الحاسوبية منصات البث على تحسين تقديم المحتوى، وتحسين تفاعل المستخدم، وتبسيط اكتشاف المحتوى. هيا بنا نبدأ!

الشكل 1. سوق بث الفيديو العالمي.

استكشاف الرؤية الحاسوبية ومنصات البث.

عندما يتعلق الأمر بمنصات البث، يمكن أن تساعد رؤية الكمبيوتر في تقسيم مقاطع الفيديو إلى إطارات فردية وتحليلها باستخدام نماذج مثل Ultralytics YOLO11. يمكن تدريب YOLO11 بشكل مخصص على مجموعات بيانات كبيرة من الأمثلة المصنفة. الأمثلة المصنفة هي صور أو إطارات فيديو موسومة بتفاصيل مثل الكائنات التي تحتوي عليها، أو الإجراءات التي تحدث، أو نوع المشهد. يساعد هذا النموذج على تعلم التعرف على الأنماط المماثلة. يمكن لهذه النماذج اكتشاف الكائنات و تصنيف المشاهد وتحديد الأنماط في الوقت الفعلي، مما يوفر رؤى قيمة حول المحتوى.

لفهم كيفية عمل ذلك بشكل أفضل، دعنا نلقي نظرة على بعض الأمثلة لكيفية تطبيق الرؤية الحاسوبية في منصات البث لتحسين تجربة المستخدم وجعل المحتوى أكثر سهولة.

التعرف على المشهد لتقديم توصيات مخصصة

التعرف على المشهد هو تقنية رؤية حاسوبية تصنف الصور أو إطارات الفيديو بناءً على محتواها المرئي وموضوعاتها. يمكن اعتبارها شكلاً متخصصًا من أشكال تصنيف الصور، حيث ينصب التركيز على تحديد الإعداد العام أو الجو العام للمشهد بدلاً من الكائنات الفردية. 

على سبيل المثال، قد يقوم نظام التعرف على المشهد بتجميع المشاهد في فئات مثل "غرفة نوم احتياطية" أو "مسار غابة" أو "ساحل صخري" عن طريق تحليل ميزات مثل الألوان والقوام والإضاءة والأشياء. يتيح التعرف على المشهد لمنصات البث تصنيف المحتوى وتنظيمه بفعالية.

الشكل 2. تصنيف المشاهد باستخدام الذكاء الاصطناعي.

إنه يلعب دورًا رئيسيًا في التوصيات المخصصة. إذا كان المستخدم يشاهد غالبًا محتوى يتميز بإعدادات خارجية هادئة مثل "السواحل المشمسة" أو تصميمات داخلية عصرية مثل "المطبخ الأنيق"، فيمكن للمنصة أن توصي بعروض أو أفلام ذات صور مرئية مماثلة. يعمل التعرف على المشهد على تبسيط اكتشاف المحتوى ويقدم للمستخدمين توصيات تتناسب مع تفضيلات المشاهدة الخاصة بهم.

إنشاء الصور والصور المصغرة

إنشاء الصور والصور المصغرة هو عملية إنشاء معاينات مرئية لمقاطع الفيديو لجذب المشاهدين وإبراز اللحظات الرئيسية. يمكن للذكاء الاصطناعي ورؤية الكمبيوتر أتمتة هذه العملية لضمان أن تكون الصور المصغرة ذات صلة وجذابة.

إليك كيفية عمل هذه العملية:

  • تحليل الإطارات: يمكن لنظام رؤية الكمبيوتر أن يبدأ بمسح آلاف إطارات الفيديو لتحديد اللحظات البارزة. يمكن أن تشمل هذه اللحظات تعبيرات عاطفية أو إجراءات رئيسية أو مشاهد مذهلة بصريًا تمثل محتوى الفيديو على أفضل وجه.
  • تحليل الحركة: بمجرد تحديد الإطارات المحتملة، يمكن استخدام الذكاء الاصطناعي البصري للتحقق من حدتها وخلوها من التشويش، مما يعزز الجودة المرئية الشاملة للصورة المصغرة.
  • اكتشاف الكائنات وتحليل المشهد: باستخدام نماذج مثل YOLO11 (التي تدعم مهام رؤية الكمبيوتر مثل اكتشاف الكائنات وتجزئة المثيل)، يمكن للنظام اكتشاف العناصر المهمة في الإطار، مثل الكائنات أو الأحرف أو الإعدادات. تؤكد هذه الخطوة مجددًا أن الصورة المصغرة تعكس بدقة جوهر الفيديو.
  • تحسين الصورة: يتم بعد ذلك تحسين الإطارات المحددة من خلال مراعاة عوامل مثل زوايا الكاميرا والإضاءة والتكوين. 
  • التخصيص: أخيرًا، يمكن استخدام خوارزميات التعلم الآلي لتخصيص الصور المصغرة بناءً على تفضيلات المستخدم وسجل المشاهدة. يؤدي القيام بذلك إلى تصميم العناصر المرئية لتناسب الأذواق الفردية، مما يجعلها أكثر عرضة لجذب الانتباه وزيادة التفاعل.

أحد الأمثلة الجيدة على تطبيق مماثل في العالم الحقيقي هو استخدام Netflix للرؤية الحاسوبية لإنشاء صور مصغرة تلقائيًا. من خلال تحليل الإطارات لاكتشاف المشاعر والسياق والتفاصيل السينمائية، تنشئ Netflix صورًا مصغرة تتناسب مع تفضيلات المشاهدين الفرديين. على سبيل المثال، قد يرى المستخدمون الذين يستمتعون بالأفلام الكوميدية الرومانسية صورة مصغرة تسلط الضوء على لحظة مبهجة، بينما قد يتم تقديم مشهد مكثف وعالي الطاقة لمحبي أفلام الحركة.

الشكل 3. يمكن تخصيص صور مصغرة للبرامج التلفزيونية لتتناسب مع تفضيلات المشاهد.

معاينات المحتوى الآلية 

عندما تتصفح منصة بث، فإن المعاينات القصيرة الجذابة التي تراها ليست عشوائية. لقد تم تصميمها بعناية باستخدام تقنيات مثل الرؤية الحاسوبية لجذب الانتباه وتسليط الضوء على أهم لحظات الفيديو. بمجرد تحديد أفضل اللحظات، يتم تجميعها معًا في معاينة سلسة وجذابة. 

تتضمن العملية الكامنة وراء اختيار تلك اللحظات عدة خطوات رئيسية:

  • تقسيم المشهد: يتم تقسيم الفيديو إلى أقسام أصغر بناءً على التحولات الطبيعية، مثل التغييرات في الإضاءة أو زوايا الكاميرا أو العناصر المرئية.
  • اكتشاف الحركة: يتم تحديد اللحظات الديناميكية المليئة بالإثارة للتأكد من أن المعاينة تجذب الانتباه.
  • نماذج بروز العناصر: يتم تحليل الميزات المرئية مثل اللون والسطوع والتباين لتحديد الأجزاء الأكثر جاذبية للعين في المشهد.
  • تحليل تعابير الوجه: يتم اختيار اللحظات التي تتضمن تعابير عاطفية قوية لإنشاء اتصال أعمق مع المشاهدين.

تصنيف المحتوى ووضع العلامات

تعتمد القدرة على تصفح الأفلام حسب النوع أو الحالة المزاجية أو الموضوعات المحددة على التصنيف الدقيق للمحتوى ووضع العلامات عليه. تستخدم منصات البث الشائعة رؤية الكمبيوتر لأتمتة هذه العملية عن طريق تحليل مقاطع الفيديو بحثًا عن الكائنات أو الإجراءات أو الإعدادات أو المشاعر، ثم تعيين علامات ذات صلة. يساعد ذلك في تنظيم مكتبات الوسائط الكبيرة ويجعل التوصيات المخصصة أكثر دقة من خلال مطابقة المحتوى مع تفضيلات المشاهد.

يمكن استخدام تقنيات الذكاء الاصطناعي البصري مثل تجزئة المشهد واكتشاف الأجسام و التعرف على الأنشطة لوضع علامات على المحتوى بشكل فعال. من خلال تحديد العناصر الأساسية مثل الكائنات والنغمات العاطفية والإجراءات، فإنها تنشئ بيانات وصفية مفصلة لكل عنوان. يمكن بعد ذلك تحليل البيانات الوصفية باستخدام التعلم الآلي لإنشاء فئات تسهل على المستخدمين العثور على ما يبحثون عنه وتحسين تجربة التصفح بشكل عام.

الشكل 4. مثال على التصنيف الآلي للمحتوى لتوصيات البث المخصصة.

مزايا وتحديات منصات البث المدعومة بالذكاء الاصطناعي

تعمل الرؤية الحاسوبية على تحسين منصات البث بميزات مبتكرة تعزز تجربة المستخدم. فيما يلي بعض المزايا الفريدة التي يجب أخذها في الاعتبار:

  • جودة البث التكيفي: يمكن لرؤية الكمبيوتر تحليل مشاهد الفيديو لتحديد اللحظات عالية الحركة أو التفصيل التي تحتاج إلى جودة أعلى. يمكن بعد ذلك استخدام هذه الرؤى لضبط جودة البث لتناسب جهاز المستخدم وسرعة الإنترنت.
  • مراقبة السلوك في الوقت الفعلي: يمكن استخدام الذكاء الاصطناعي لمراقبة البث المباشر للكشف عن القرصنة في الوقت الفعلي. يمكنه أيضًا تحديد الإجراءات غير المصرح بها مثل إضافة تراكبات (مثل الشعارات أو الإعلانات) أو إعادة بث التدفقات إلى منصات أخرى.
  • توصيل المحتوى بكفاءة في استخدام الطاقة: يمكن لرؤى الذكاء الاصطناعي البصري تحسين توصيل المحتوى من خلال تحليل طلب المستخدم وأنماط المشاهدة. يؤدي التخزين المؤقت للمحتوى الشائع محليًا وتعديل جودة الفيديو إلى تقليل استخدام النطاق الترددي واستهلاك الطاقة، مما يجعل البث أكثر استدامة.

على الرغم من هذه المزايا، هناك أيضًا بعض القيود التي يجب وضعها في الاعتبار عند تطبيق هذه الابتكارات:

  • متطلبات حسابية عالية: تتطلب خوارزميات رؤية الكمبيوتر قوة حسابية كبيرة لمعالجة وتحليل محتوى الفيديو، ويمكن أن يؤدي ذلك إلى زيادة التكاليف واستهلاك الطاقة.
  • مخاوف بشأن خصوصية البيانات: نظرًا لأن رؤية الحاسوب تعتمد على مجموعات بيانات كبيرة من تفاعلات المستخدمين والمحتوى، فقد تثير مخاوف بشأن خصوصية البيانات وأمانها.
  • تحيز البيانات: يمكن لنماذج رؤية الحاسوب أن تعكس التحيزات الموجودة في بيانات التدريب الخاصة بها. قد يتسبب هذا في تفضيل أنواع معينة من المحتوى وتقليل التنوع في التوصيات.

مستقبل الذكاء الاصطناعي في منصات البث

تساعد الابتكارات مثل الحوسبة الطرفية وتكنولوجيا الأبعاد الثلاثية في تشكيل مستقبل تجربتنا للترفيه. يمكن استخدام الحوسبة الطرفية لمعالجة مقاطع الفيديو بالقرب من مكان بثها. إنها تقلل التأخير وتوفر النطاق الترددي، وهو أمر مهم بشكل خاص للبث المباشر والمحتوى التفاعلي. تعني أوقات الاستجابة الأسرع تجارب أكثر سلاسة وجاذبية للمشاهدين.

في الوقت نفسه، تضيف تكنولوجيا الأبعاد الثلاثية عمقًا وواقعية إلى العروض والأفلام والميزات التفاعلية. تفتح هذه التطورات أيضًا الباب أمام إمكانيات جديدة مثل الواقع المعزز (AR) والواقع الافتراضي (VR). باستخدام أجهزة مثل نظارات الواقع الافتراضي، يمكن للمشاهدين الدخول إلى بيئات غامرة تمامًا. يمكن طمس الخطوط الفاصلة بين العالمين الرقمي والمادي لخلق مستوى جديد تمامًا من التفاعل.

الشكل 5. إعادة تشكيل البث باستخدام تجارب تفاعلية تعتمد على الواقع الافتراضي.

النقاط الرئيسية

تعيد الرؤية الحاسوبية تعريف منصات البث من خلال جعل تحليل الفيديو أكثر ذكاءً وتصنيف المحتوى أسرع والتوصيات أكثر تخصيصًا. باستخدام نماذج مثل Ultralytics YOLO11، يمكن للمنصات اكتشاف الكائنات وتصنيف المشاهد في الوقت الفعلي. يساعد ذلك في تسهيل وضع علامات على المحتوى وتحسين طريقة اقتراح العروض والأفلام.

توفر منصات البث المتكاملة مع Vision AI تجارب أكثر جاذبية للمشاهدين مع ضمان عمليات منصة أكثر سلاسة وكفاءة. مع تقدم التكنولوجيا، من المرجح أن تصبح خدمات البث أكثر تفاعلية، مما يوفر تجارب ترفيهية أكثر ثراءً وغامرة.

هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا لاستكشاف المزيد والتواصل مع مجتمعنا. اكتشف تطبيقات مختلفة لـ الذكاء الاصطناعي في الرعاية الصحية و الرؤية الحاسوبية في الزراعة.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة