Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم متعدد الوسائط

اكتشف قوة التعلم متعدد الوسائط في الذكاء الاصطناعي! استكشف كيف تدمج النماذج أنواعًا متنوعة من البيانات لحل المشكلات الواقعية بشكل أكثر ثراءً.

التعلم متعدد الوسائط هو مجال فرعي متقدم من التعلم الآلي (ML) حيث يتم على معالجة المعلومات وفهمها وربطها من أنواع متعددة ومختلفة من البيانات، والمعروفة باسم الطرائق. بينما تركز أنظمة الذكاء الاصطناعي التقليدية غالبًا على نوع واحد من المدخلات - مثل النص لترجمة اللغة أو وحدات البكسل ل للتعرف على الصور - فإنالتعلم متعدد الوسائطيحاكي التعلم متعدد الوسائط الإدراك البشري من خلال دمج المدخلات الحسية المتنوعة مثل البيانات المرئية والصوتية المنطوقة والأوصاف النصية وأجهزة الاستشعار وقراءات أجهزة الاستشعار. يتيح هذا النهج الشامل للذكاء الاصطناعي بتطوير فهماً أعمق وأكثر وعياً بالسياق للعالم، مما يؤدي إلى نماذج تنبؤية أكثر قوة وتنوعاً.

ميكانيكا التكامل متعدد الوسائط

التحدي الأساسي في التعلم متعدد الوسائط هو ترجمة أنواع البيانات المختلفة إلى فضاء رياضي مشترك حيث يمكن مقارنتها ودمجها. تتضمن هذه العملية عادةً ثلاث مراحل رئيسية: الترميز والمحاذاة والدمج.

  1. الترميز: تعالج الشبكات العصبية المتخصصة كل طريقة بشكل مستقل. على سبيل المثال الشبكات العصبية التلافيفية (CNNs) أو محولات الرؤية (ViTs) تستخرج ميزات من الصور، بينما تستخرج تقوم الشبكات العصبية المتكررة (RNNs) أو المحولات تعالج النصوص.
  2. المحاذاة: يتعلّم النموذج تعيين هذه الميزات المتنوعة في متجهات مشتركة عالية الأبعاد تسمى التضمينات. في هذا الفضاء المشترك، يتم تقريب متجه لكلمة "كلب" ومتجه صورة كلب يتم تقريبهما من بعضهما البعض. تقنيات مثل التعلم التبايني، التي شاع استخدامها في أبحاث مثل OpenAI's CLIP، وهي ضرورية هنا.
  3. الدمج: أخيرًا، يتم دمج المعلومات لأداء مهمة ما. يمكن أن يحدث الدمج مبكرًا (دمج البيانات الأولية الخام)، أو في وقت متأخر (دمج التنبؤات النهائية)، أو عبر طرق هجينة وسيطة باستخدام آلية آلية الانتباه لتقييم أهمية كل طريقة بشكل ديناميكي.

تطبيقات واقعية

التعلُّم متعدد الوسائط هو المحرك وراء العديد من إنجازات الذكاء الاصطناعي الأكثر إثارة للإعجاب اليوم، حيث يسد الفجوة بين صوامع البيانات المختلفة.

  • الإجابة على الأسئلة المرئية (VQA): في الإجابة على الأسئلة المرئية (VQA)، يجب على نظام يجب على النظام تحليل صورة ما والإجابة عن سؤال بلغة طبيعية حولها، مثل "ما لون ". "، وهذا يتطلب من النموذج فهم دلالات النص وتحديد موقع العناصر المرئية المقابلة من الناحية المكانية.
  • الملاحة الذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على دمج أجهزة الاستشعار، والجمع بين البيانات من السحب النقطية بتقنية الليدار وفيديوهات الكاميرا والرادار للتنقل بأمان. تضمن هذه المدخلات متعددة الوسائط أنه في حال فشل أحد أجهزة الاستشعار (على سبيل المثال، إذا كاميرا أعمى بسبب وهج الشمس)، يمكن لأجهزة الاستشعار الأخرى الحفاظ على السلامة.
  • تشخيص الرعاية الصحية: يستخدم الذكاء الاصطناعي في الرعاية الصحية التعلم متعدد الوسائط من خلال تحليل الصور الطبية (مثل التصوير بالرنين المغناطيسي أو الأشعة السينية) إلى جانب التاريخ المرضي النصي غير المنظم للمريض والبيانات الوراثية. تساعد هذه الرؤية الشاملة الأطباء في إجراء تشخيصات أكثر دقة، وهو موضوع كثيرًا ما تتم مناقشته في مجلات Nature Digital Medicine.

الكشف عن الأجسام متعدد الوسائط باستخدام Ultralytics

في حين تعتمد أجهزة الكشف عن الأجسام القياسية على فئات محددة مسبقًا، فإن الأساليب متعددة الوسائط مثل YOLO تسمح للمستخدمين detect الأجسام باستخدام مطالبات نصية مفتوحة المفردات. وهذا يوضح قوة الربط بين المفاهيم النصية والميزات المرئية.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

التمييز بين المصطلحات الرئيسية

للإبحار في مشهد الذكاء الاصطناعي الحديث، من المفيد التمييز بين "التعلم متعدد الوسائط" والمفاهيم ذات الصلة:

  • النماذج متعددة الوسائط: يشير مصطلح "التعلم متعدد الوسائط" إلى منهجية ومجال الدراسة. "نموذج متعدد النماذج " (مثل GPT-4 أو Gemini) هو "نموذج متعدد الوسائط" هو قطعة أثرية أو منتج برمجي محدد ناتج عن عملية التدريب تلك.
  • الرؤية الحاسوبية (CV): السيرة الذاتية هي أحادية النمط بشكل عام، تركز بشكل حصري على البيانات المرئية. بينما نموذج مثل Ultralytics YOLO11 هو أداة متطورة للسيرة الذاتية، فإنه يصبح جزءًا من خط أنابيب متعدد الوسائط عندما يتم دمج مخرجاته مع البيانات الصوتية أو النصية.
  • نماذج اللغات الكبيرة (LLMs): نماذج اللغات التقليدية أحادية النمط (LLMs) أحادية النمط، يتم تدريبها على النصوص فقط. ومع ذلك، فإن الصناعة تتحول نحو "النماذج اللغوية الكبيرة متعددة الوسائط الكبيرة متعددة الوسائط" (LMMs) التي يمكنها معالجة الصور والنصوص في الأصل، وهو اتجاه تدعمه أطر عمل مثل PyTorch و TensorFlow.

التوقعات المستقبلية

يشير مسار التعلّم متعدد الوسائط إلى الأنظمة التي تمتلك الذكاء الاصطناعي العام (AGI) خصائص. من خلال تأصيل اللغة بنجاح في الواقع المرئي والمادي، فإن هذه النماذج تتجاوز الارتباط الإحصائي نحو الاستدلال الحقيقي. أبحاث من مؤسسات مثل معهد ماساتشوستس للتكنولوجيا CSAIL و يستمر مركز ستانفورد لأبحاث النماذج التأسيسية في دفع حدود كيفية إدراك الآلات للبيئات المعقدة متعددة الحواس وتفاعلها معها.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن