Yolo فيجن شنتشن
شنتشن
انضم الآن

نظرة من وراء الكواليس على الذكاء الاصطناعي البصري في البث المباشر

أبيرامي فينا

قراءة لمدة 3 دقائق

10 ديسمبر 2024

اكتشف كيف تعزز رؤية الكمبيوتر منصات البث من خلال التوصيات المخصصة وتحليل المحتوى في الوقت الفعلي لتجربة مستخدم أفضل.

هل تساءلت يومًا كيف تجعل منصات البث من السهل جدًا مشاهدة برامجك المفضلة؟ منذ وقت ليس ببعيد، كانت الترفيه مختلفة تمامًا. كانت جداول التلفزيون ثابتة، وشاهد المشاهدون عمومًا ما يتم عرضه على الهواء. لقد غيرت خدمات البث هذا النموذج. تُظهر الاستطلاعات أن قيمة سوق بث الفيديو العالمي بلغت 106.83 مليار دولار في عام 2023، ومن المتوقع أن تصل إلى 865.85 مليار دولار بحلول عام 2034.

لقد كان الذكاء الاصطناعي (AI) محوريًا في هذا التطور. على وجه التحديد، نشهد زيادة في ابتكارات الرؤية الحاسوبية في هذا المجال. يتيح الذكاء الاصطناعي البصري لمنصات البث فهم محتوى الفيديو وتفسيره من خلال تحليل الإطارات والتعرف على الأنماط. 

من خلال معالجة البيانات المرئية، تساعد الرؤية الحاسوبية المنصات في إنشاء توصيات أكثر ذكاءً، وتحسين تنظيم المحتوى، وحتى تعزيز الميزات التفاعلية. في هذه المقالة، سوف نستكشف كيف تساعد الرؤية الحاسوبية منصات البث على تحسين تقديم المحتوى، وتحسين تفاعل المستخدم، وتبسيط اكتشاف المحتوى. هيا بنا نبدأ!

الشكل 1. سوق بث الفيديو العالمي.

استكشاف الرؤية الحاسوبية ومنصات البث.

عندما يتعلق الأمر بمنصات البث، يمكن أن تساعد الرؤية الحاسوبية في تقسيم مقاطع الفيديو إلى إطارات فردية وتحليلها باستخدام نماذج مثل Ultralytics YOLO11. يمكن تدريب YOLO11 بشكل مخصص على مجموعات بيانات كبيرة من الأمثلة المصنفة. الأمثلة الموسومة هي صور أو إطارات فيديو موسومة بتفاصيل مثل الأشياء التي تحتويها أو الأفعال التي تحدث أو نوع المشهد. يساعد هذا النموذج على تعلم التعرف على الأنماط المتشابهة. يمكن لهذه النماذج detect الأجسام classify المشاهد وتحديد الأنماط في الوقت الفعلي، مما يوفر رؤىً قيّمة حول المحتوى.

لفهم كيفية عمل ذلك بشكل أفضل، دعنا نلقي نظرة على بعض الأمثلة لكيفية تطبيق الرؤية الحاسوبية في منصات البث لتحسين تجربة المستخدم وجعل المحتوى أكثر سهولة.

التعرف على المشهد لتقديم توصيات مخصصة

التعرف على المشهد هو تقنية رؤية حاسوبية تصنف الصور أو إطارات الفيديو بناءً على محتواها المرئي وموضوعاتها. يمكن اعتبارها شكلاً متخصصًا من أشكال تصنيف الصور، حيث ينصب التركيز على تحديد الإعداد العام أو الجو العام للمشهد بدلاً من الكائنات الفردية. 

على سبيل المثال، قد يقوم نظام التعرف على المشهد بتجميع المشاهد في فئات مثل "غرفة نوم احتياطية" أو "مسار غابة" أو "ساحل صخري" عن طريق تحليل ميزات مثل الألوان والقوام والإضاءة والأشياء. يتيح التعرف على المشهد لمنصات البث تصنيف المحتوى وتنظيمه بفعالية.

الشكل 2. تصنيف المشاهد باستخدام الذكاء الاصطناعي.

إنه يلعب دورًا رئيسيًا في التوصيات المخصصة. إذا كان المستخدم يشاهد غالبًا محتوى يتميز بإعدادات خارجية هادئة مثل "السواحل المشمسة" أو تصميمات داخلية عصرية مثل "المطبخ الأنيق"، فيمكن للمنصة أن توصي بعروض أو أفلام ذات صور مرئية مماثلة. يعمل التعرف على المشهد على تبسيط اكتشاف المحتوى ويقدم للمستخدمين توصيات تتناسب مع تفضيلات المشاهدة الخاصة بهم.

إنشاء الصور والصور المصغرة

إنشاء الصور والصور المصغرة هو عملية إنشاء معاينات مرئية لمقاطع الفيديو لجذب المشاهدين وإبراز اللحظات الرئيسية. يمكن للذكاء الاصطناعي ورؤية الكمبيوتر أتمتة هذه العملية لضمان أن تكون الصور المصغرة ذات صلة وجذابة.

إليك كيفية عمل هذه العملية:

  • تحليل الإطارات: يمكن لنظام رؤية الكمبيوتر أن يبدأ بمسح آلاف إطارات الفيديو لتحديد اللحظات البارزة. يمكن أن تشمل هذه اللحظات تعبيرات عاطفية أو إجراءات رئيسية أو مشاهد مذهلة بصريًا تمثل محتوى الفيديو على أفضل وجه.
  • تحليل الحركة: بمجرد تحديد الإطارات المحتملة، يمكن استخدام الذكاء الاصطناعي البصري للتحقق من حدتها وخلوها من التشويش، مما يعزز الجودة المرئية الشاملة للصورة المصغرة.
  • اكتشاف الأجسام وتحليل المشهد: استخدام نماذج مثل YOLO11 (التي تدعم مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيل)، يمكن للنظام detect العناصر المهمة في الإطار، مثل الكائنات أو الشخصيات أو الإعدادات. تعيد هذه الخطوة التأكيد على أن الصورة المصغرة تعكس بدقة جوهر الفيديو.
  • تحسين الصورة: يتم بعد ذلك تحسين الإطارات المحددة من خلال مراعاة عوامل مثل زوايا الكاميرا والإضاءة والتكوين. 
  • التخصيص: أخيرًا، يمكن استخدام خوارزميات التعلم الآلي لتخصيص الصور المصغرة بناءً على تفضيلات المستخدم وسجل المشاهدة. يؤدي القيام بذلك إلى تصميم العناصر المرئية لتناسب الأذواق الفردية، مما يجعلها أكثر عرضة لجذب الانتباه وزيادة التفاعل.

من الأمثلة الجيدة على تطبيق واقعي مشابه استخدام Netflix للرؤية الحاسوبية لإنشاء صور مصغرة تلقائيًا. من خلال تحليل الإطارات detect المشاعر والسياق والتفاصيل السينمائية، تقوم Netflix بإنشاء صور مصغرة تتوافق مع تفضيلات المشاهدين الفردية. على سبيل المثال، قد يشاهد المستخدمون الذين يستمتعون بالأفلام الكوميدية الرومانسية صورة مصغرة تسلط الضوء على لحظة خفيفة الظل، بينما قد يُعرض على محبي أفلام الحركة مشهداً مكثفاً عالي الطاقة.

الشكل 3. يمكن تخصيص صور مصغرة للبرامج التلفزيونية لتتناسب مع تفضيلات المشاهد.

معاينات المحتوى الآلية 

عندما تتصفح منصة بث، فإن المعاينات القصيرة الجذابة التي تراها ليست عشوائية. لقد تم تصميمها بعناية باستخدام تقنيات مثل الرؤية الحاسوبية لجذب الانتباه وتسليط الضوء على أهم لحظات الفيديو. بمجرد تحديد أفضل اللحظات، يتم تجميعها معًا في معاينة سلسة وجذابة. 

تتضمن العملية الكامنة وراء اختيار تلك اللحظات عدة خطوات رئيسية:

  • تقسيم المشهد: يتم تقسيم الفيديو إلى أقسام أصغر بناءً على التحولات الطبيعية، مثل التغييرات في الإضاءة أو زوايا الكاميرا أو العناصر المرئية.
  • اكتشاف الحركة: يتم تحديد اللحظات الديناميكية المليئة بالإثارة للتأكد من أن المعاينة تجذب الانتباه.
  • نماذج بروز العناصر: يتم تحليل الميزات المرئية مثل اللون والسطوع والتباين لتحديد الأجزاء الأكثر جاذبية للعين في المشهد.
  • تحليل تعابير الوجه: يتم اختيار اللحظات التي تتضمن تعابير عاطفية قوية لإنشاء اتصال أعمق مع المشاهدين.

تصنيف المحتوى ووضع العلامات

تعتمد القدرة على تصفح الأفلام حسب النوع أو الحالة المزاجية أو الموضوعات المحددة على التصنيف الدقيق للمحتوى ووضع العلامات عليه. تستخدم منصات البث الشائعة رؤية الكمبيوتر لأتمتة هذه العملية عن طريق تحليل مقاطع الفيديو بحثًا عن الكائنات أو الإجراءات أو الإعدادات أو المشاعر، ثم تعيين علامات ذات صلة. يساعد ذلك في تنظيم مكتبات الوسائط الكبيرة ويجعل التوصيات المخصصة أكثر دقة من خلال مطابقة المحتوى مع تفضيلات المشاهد.

يمكن استخدام تقنيات الذكاء الاصطناعي البصري مثل تجزئة المشهد واكتشاف الأجسام و التعرف على الأنشطة لوضع علامات على المحتوى بشكل فعال. من خلال تحديد العناصر الأساسية مثل الكائنات والنغمات العاطفية والإجراءات، فإنها تنشئ بيانات وصفية مفصلة لكل عنوان. يمكن بعد ذلك تحليل البيانات الوصفية باستخدام التعلم الآلي لإنشاء فئات تسهل على المستخدمين العثور على ما يبحثون عنه وتحسين تجربة التصفح بشكل عام.

الشكل 4. مثال على التصنيف الآلي للمحتوى لتوصيات البث المخصصة.

مزايا وتحديات منصات البث المدعومة بالذكاء الاصطناعي

تعمل الرؤية الحاسوبية على تحسين منصات البث بميزات مبتكرة تعزز تجربة المستخدم. فيما يلي بعض المزايا الفريدة التي يجب أخذها في الاعتبار:

  • جودة البث التكيفي: يمكن لرؤية الكمبيوتر تحليل مشاهد الفيديو لتحديد اللحظات عالية الحركة أو التفصيل التي تحتاج إلى جودة أعلى. يمكن بعد ذلك استخدام هذه الرؤى لضبط جودة البث لتناسب جهاز المستخدم وسرعة الإنترنت.
  • مراقبة السلوك في الوقت الحقيقي: يمكن استخدام الذكاء الاصطناعي لمراقبة البث المباشر detect القرصنة في الوقت الحقيقي. كما يمكنه أيضًا تحديد الإجراءات غير المصرح بها مثل إضافة تراكبات (مثل الشعارات أو الإعلانات) أو إعادة بث التدفقات إلى منصات أخرى.
  • توصيل المحتوى بكفاءة في استخدام الطاقة: يمكن لرؤى الذكاء الاصطناعي البصري تحسين توصيل المحتوى من خلال تحليل طلب المستخدم وأنماط المشاهدة. يؤدي التخزين المؤقت للمحتوى الشائع محليًا وتعديل جودة الفيديو إلى تقليل استخدام النطاق الترددي واستهلاك الطاقة، مما يجعل البث أكثر استدامة.

على الرغم من هذه المزايا، هناك أيضًا بعض القيود التي يجب وضعها في الاعتبار عند تطبيق هذه الابتكارات:

  • متطلبات حسابية عالية: تتطلب خوارزميات رؤية الكمبيوتر قوة حسابية كبيرة لمعالجة وتحليل محتوى الفيديو، ويمكن أن يؤدي ذلك إلى زيادة التكاليف واستهلاك الطاقة.
  • مخاوف بشأن خصوصية البيانات: نظرًا لأن رؤية الحاسوب تعتمد على مجموعات بيانات كبيرة من تفاعلات المستخدمين والمحتوى، فقد تثير مخاوف بشأن خصوصية البيانات وأمانها.
  • تحيز البيانات: يمكن لنماذج رؤية الحاسوب أن تعكس التحيزات الموجودة في بيانات التدريب الخاصة بها. قد يتسبب هذا في تفضيل أنواع معينة من المحتوى وتقليل التنوع في التوصيات.

مستقبل الذكاء الاصطناعي في منصات البث

تساعد الابتكارات مثل الحوسبة الطرفية وتكنولوجيا الأبعاد الثلاثية في تشكيل مستقبل تجربتنا للترفيه. يمكن استخدام الحوسبة الطرفية لمعالجة مقاطع الفيديو بالقرب من مكان بثها. إنها تقلل التأخير وتوفر النطاق الترددي، وهو أمر مهم بشكل خاص للبث المباشر والمحتوى التفاعلي. تعني أوقات الاستجابة الأسرع تجارب أكثر سلاسة وجاذبية للمشاهدين.

في الوقت نفسه، تضيف تكنولوجيا الأبعاد الثلاثية عمقًا وواقعية إلى العروض والأفلام والميزات التفاعلية. تفتح هذه التطورات أيضًا الباب أمام إمكانيات جديدة مثل الواقع المعزز (AR) والواقع الافتراضي (VR). باستخدام أجهزة مثل نظارات الواقع الافتراضي، يمكن للمشاهدين الدخول إلى بيئات غامرة تمامًا. يمكن طمس الخطوط الفاصلة بين العالمين الرقمي والمادي لخلق مستوى جديد تمامًا من التفاعل.

الشكل 5. إعادة تشكيل البث باستخدام تجارب تفاعلية تعتمد على الواقع الافتراضي.

النقاط الرئيسية

تعمل الرؤية الحاسوبية على إعادة تعريف منصات البث من خلال جعل تحليل الفيديو أكثر ذكاءً، وتصنيف المحتوى بشكل أسرع، والتوصيات أكثر تخصيصًا. باستخدام نماذج مثل Ultralytics YOLO11 يمكن للمنصات detect الأشياء classify المشاهد في الوقت الفعلي. يساعد ذلك في تسهيل تصنيف المحتوى وتحسين كيفية اقتراح العروض والأفلام.

توفر منصات البث المتكاملة مع Vision AI تجارب أكثر جاذبية للمشاهدين مع ضمان عمليات منصة أكثر سلاسة وكفاءة. مع تقدم التكنولوجيا، من المرجح أن تصبح خدمات البث أكثر تفاعلية، مما يوفر تجارب ترفيهية أكثر ثراءً وغامرة.

هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا لاستكشاف المزيد والتواصل مع مجتمعنا. اكتشف تطبيقات مختلفة لـ الذكاء الاصطناعي في الرعاية الصحية و الرؤية الحاسوبية في الزراعة.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا