Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم متعدد الوسائط

استكشف التعلم متعدد الوسائط في مجال الذكاء الاصطناعي. تعرف على كيفية دمج النص والرؤية والصوت لإنشاء نماذج قوية مثل Ultralytics و YOLO. اكتشف المزيد اليوم!

التعلم متعدد الوسائط هو نهج متطور في الذكاء الاصطناعي (AI) الذي يدرب الخوارزميات على معالجة وفهم وربط المعلومات من أنواع متعددة ومتميزة من البيانات، أو "الوسائط". على عكس الأنظمة التقليدية التي تتخصص في نوع واحد من المدخلات — مثل النص للترجمة أو البكسلات للتعرف على الصور— فإن التعلم متعدد الوسائط يحاكي الإدراك البشري من خلال دمج مدخلات حسية متنوعة مثل البيانات المرئية والصوت المنطوق والأوصاف النصية وقراءات أجهزة الاستشعار. تسمح هذه المقاربة الشاملة لنماذج التعلم الآلي (ML) بتطوير فهم أعمق للعالم ومراعي للسياق، مما يؤدي إلى تنبؤات أكثر قوة وتنوعًا.

كيف يعمل التعلم متعدد الوسائط؟

يتمثل التحدي الأساسي في التعلم متعدد الوسائط في ترجمة أنواع البيانات المختلفة إلى فضاء رياضي مشترك حيث يمكن مقارنتها ودمجها. تتضمن هذه العملية عمومًا ثلاث مراحل رئيسية: الترميز والمواءمة والدمج.

  1. استخراج الميزات: تقوم الشبكات العصبية المتخصصة بمعالجة كل طريقة بشكل مستقل. على سبيل المثال، قد تقوم الشبكات العصبية التلافيفية (CNNs) أو محولات الرؤية (ViTs) باستخراج الميزات من الصور، بينما تقوم الشبكات العصبية المتكررة (RNNs) أو المحولات بمعالجة النصوص.
  2. محاذاة التضمينات: يتعلم النموذج تعيين هذه الميزات المتنوعة في متجهات مشتركة عالية الأبعاد. في هذه المساحة المشتركة، يتم تقريب المتجه الخاص بالكلمة "cat" والمتجه الخاص بصورة قطة. تقنيات مثل التعلم التبايني، التي شاعت بفضل أبحاث مثل CLIP من OpenAI، ضرورية هنا.
  3. دمج البيانات: أخيرًا، يتم دمج المعلومات لأداء مهمة ما. يمكن أن يحدث الدمج في وقت مبكر (دمج البيانات الأولية) أو في وقت متأخر (دمج التنبؤات النهائية) أو عبر طرق هجينة وسيطة باستخدام آلية الانتباه لتقييم أهمية كل طريقة بشكل ديناميكي.

تطبيقات واقعية

التعلم متعدد الوسائط هو المحرك وراء العديد من أكثر الاختراقات إثارة للإعجاب في مجال الذكاء الاصطناعي اليوم، حيث يسد الفجوة بين مستودعات البيانات المختلفة لحل المشكلات المعقدة.

  • الإجابة على الأسئلة البصرية (VQA): في هذا التطبيق، يجب على النظام تحليل صورة والإجابة على سؤال باللغة الطبيعية عنها، مثل "ما لون إشارة المرور؟". وهذا يتطلب من النموذج فهم دلالات النص وتحديد الموقع المكاني للعناصر البصرية المقابلة باستخدام الرؤية الحاسوبية.
  • المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على دمج أجهزة الاستشعار، حيث تجمع بين البيانات من سحب نقاط LiDAR ومدخلات فيديو الكاميرا والرادار للتنقل بأمان. يضمن هذا الإدخال متعدد الوسائط أنه في حالة فشل أحد أجهزة الاستشعار (على سبيل المثال، تعتيم الكاميرا بسبب وهج الشمس )، يمكن للأجهزة الأخرى الحفاظ على سلامة الطريق.
  • التشخيصات الطبية: يستخدم الذكاء الاصطناعي في الرعاية الصحية التعلم متعدد الوسائط من خلال تحليل الصور الطبية (مثل التصوير بالرنين المغناطيسي أو الأشعة السينية) إلى جانب تاريخ المريض النصي غير المنظم والبيانات الجينية. تساعد هذه النظرة الشاملة الأطباء في إجراء تشخيصات أكثر دقة، وهو موضوع يتم مناقشته بشكل متكرر في مجلات Nature Digital Medicine.
  • الذكاء الاصطناعي التوليدي: تعتمد الأدوات التي تنشئ صورًا من مطالبات نصية، مثل Stable Diffusion، اعتمادًا كليًا على قدرة النموذج على فهم العلاقة بين الأوصاف اللغوية والأنسجة البصرية.

الكشف عن الأجسام متعدد الوسائط باستخدام Ultralytics

بينما تعتمد أجهزة الكشف عن الأجسام القياسية على فئات محددة مسبقًا، تتيح الأساليب متعددة الوسائط مثل YOLO للمستخدمين detect باستخدام مطالبات نصية ذات مفردات مفتوحة. وهذا يوضح قوة ربط المفاهيم النصية بالسمات البصرية داخل Ultralytics .

يوضح مقتطف Python التالي كيفية استخدام نموذج YOLO المدرب مسبقًا detect استنادًا إلى مدخلات نصية مخصصة.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

التمييز بين المصطلحات الرئيسية

للإبحار في مشهد الذكاء الاصطناعي الحديث، من المفيد التمييز بين "التعلم متعدد الوسائط" والمفاهيم ذات الصلة:

  • النموذج متعدد الوسائط: يشير مصطلح "التعلم متعدد الوسائط" إلى المنهجية ومجال الدراسة. أما "النموذج متعدد الوسائط" (مثل GPT-4 أو Gemini Google) فهو المنتج الملموس أو البرنامج الناتج عن عملية التدريب تلك.
  • الذكاء الاصطناعي أحادي الوسيلة: الرؤية الحاسوبية التقليدية هي عادة أحادية الوسيلة، وتركز حصريًا على البيانات المرئية. في حين أن نموذجًا مثل Ultralytics هو أداة CV متطورة للكشف عن الأشياء، إلا أنه يعمل عادةً على المدخلات المرئية وحدها ما لم يكن جزءًا من خط أنابيب متعدد الوسائل أكبر.
  • نماذج اللغات الكبيرة (LLMs): نماذج اللغات التقليدية أحادية النمط (LLMs) أحادية النمط، يتم تدريبها على النصوص فقط. ومع ذلك، فإن الصناعة تتحول نحو "النماذج اللغوية الكبيرة متعددة الوسائط الكبيرة متعددة الوسائط" (LMMs) التي يمكنها معالجة الصور والنصوص في الأصل، وهو اتجاه تدعمه أطر عمل مثل PyTorch و TensorFlow.

التوقعات المستقبلية

يشير مسار التعلّم متعدد الوسائط إلى الأنظمة التي تمتلك الذكاء الاصطناعي العام (AGI) خصائص. من خلال تأصيل اللغة بنجاح في الواقع المرئي والمادي، فإن هذه النماذج تتجاوز الارتباط الإحصائي نحو الاستدلال الحقيقي. أبحاث من مؤسسات مثل معهد ماساتشوستس للتكنولوجيا CSAIL و يستمر مركز ستانفورد لأبحاث النماذج التأسيسية في دفع حدود كيفية إدراك الآلات للبيئات المعقدة متعددة الحواس وتفاعلها معها.

في Ultralytics نقوم بدمج هذه التطورات في Ultralytics الخاصة بنا، مما يتيح للمستخدمين إدارة البيانات وتدريب النماذج و نشر الحلول التي تستفيد من النطاق الكامل للطرق المتاحة، من سرعة YOLO26 إلى تنوع الكشف عن المفردات المفتوحة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن