Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نموذج متعدد الوسائط (Multi-Modal Model)

اكتشف كيف تدمج نماذج الذكاء الاصطناعي متعددة الوسائط النصوص والصور والمزيد لإنشاء أنظمة قوية ومتعددة الاستخدامات للتطبيقات الواقعية.

النموذج متعدد الوسائط هو نظام ذكاء اصطناعي متقدم قادر على معالجة المعلومات وتفسيرها ودمجها من عدة أنواع مختلفة من البيانات، أو "الطرائق" في وقت واحد. على عكس الأنظمة أحادية النمط التقليدية التي تتخصص في مجال واحد - مثل معالجة اللغة الطبيعية (NLP) للنصوص أو الرؤية الحاسوبية (CV) للصور للصور - يمكن للنماذج متعددة الوسائط تحليل النصوص والصور والصوت والفيديو وبيانات الاستشعار معًا. يسمح هذا التقارب للنموذج بتطوير فهم أكثر شمولاً وشبه إنساني للعالم، حيث يمكنه استخلاص الارتباطات بين الإشارات البصرية والأوصاف اللغوية. هذه القدرة أساسية لتطوير الذكاء العام الاصطناعي المستقبلي الذكاء الاصطناعي العام (AGI) في المستقبل وتقود حاليًا الابتكار في مجالات تتراوح بين الروبوتات وإنشاء المحتوى الآلي.

الآليات الأساسية

وتعتمد فعالية النماذج متعددة الوسائط على قدرتها على تعيين أنواع مختلفة من البيانات في دلالي مشترك. تبدأ هذه العملية عادةً بتوليد التضمينات -التمثيلات العدديةللبيانات التي تلتقط معناها الأساسي. من خلال التدريب على مجموعات بيانات ضخمة من الأمثلة المزدوجة، مثل الصور مع التسميات التوضيحية، يتعلم النموذج يتعلم النموذج محاذاة تضمين صورة "كلب" مع تضمين النص لكلمة "كلب". "كلب".

الابتكارات المعمارية الرئيسية تجعل هذا التكامل ممكناً:

  • هندسة المحولات: المقترحة أصلاً المقترحة في ورقة "الانتباه هو كل ما تحتاجه", تستخدم المحولات آليات الانتباه تزن أهمية أجزاء المدخلات المختلفة ديناميكيًا. يسمح هذا للنموذج بالتركيز على المناطق المرئية ذات الصلة عند معالجة استعلام نصي محدد.
  • دمج البيانات: يجب دمج المعلومات من مصادر مختلفة بشكل فعال. تتراوح الاستراتيجيات من الدمج المبكر (دمج البيانات الأولية) إلى الدمج المتأخر (دمج قرارات النموذج). الأطر الحديثة مثل PyTorch و TensorFlow توفر الأدوات المرنة اللازمة لتنفيذ هذه البنى المعقدة.

تطبيقات واقعية

أتاحت النماذج متعددة الوسائط إمكانات جديدة كانت مستحيلة في السابق مع أنظمة الوسيلة الواحدة.

  • الإجابة على الأسئلة المرئية (VQA): يمكن لهذه الأنظمة تحليل صورة والإجابة عن أسئلة اللغة الطبيعية حولها. على سبيل المثال، قد يسأل مستخدم ضعيف البصر "هل ممر المشاة آمن للسير؟" ويقوم النموذج بمعالجة بث الفيديو المباشر (مرئي) و والسؤال (نص) لتقديم إجابة صوتية.
  • تحويل النص إلى صورة: أدوات الذكاء الاصطناعي التوليدي الرائدة أدوات الذكاء الاصطناعي التوليدي الرائدة مثل OpenAI's DALL-E 3 التي تقبل المطالبات النصية الوصفية وتوليد صور عالية الدقة. يتطلب هذا فهمًا عميقًا لكيفية ترجمة المفاهيم النصية إلى سمات بصرية مثل الملمس والإضاءة والتركيب.
  • الكشف عن الكائنات مفتوحة المفردات: نماذج مثل Ultralytics YOLO تسمح للمستخدمين detect الكائنات باستخدام مطالبات نصية اعتباطية بدلاً من قائمة ثابتة من الفئات. هذا يسد الفجوة بين الأوامر اللغوية والتعرف البصري.

يوضح المثال التالي كيفية استخدام ultralytics لإجراء عملية الكشف عن المفردات المفتوحة حيث يكتشف النموذج الكائنات بناءً على مدخلات نصية مخصصة:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

الفروق عن المصطلحات ذات الصلة

من المهم التفريق بين "النموذج متعدد الوسائط" والمفاهيم ذات الصلة في مسرد مصطلحات الذكاء الاصطناعي:

  • التعلّم متعدد الوسائط: يشير هذا يشير إلى عملية وتقنيات التعلم الآلي المستخدمة لتدريب هذه الأنظمة. النموذج متعدد الوسائط هو نتيجة التعلم الناجح متعدد الوسائط.
  • نماذج اللغات الكبيرة (LLMs): في حين أن النماذج اللغوية الكبيرة التقليدية تعالج النصوص فقط، فإن العديد منها يتطور إلى نماذج لغوية بصرية (VLMs). ومع ذلك، فإن النماذج اللغوية اللغوية الكبيرة القياسية أحادية النمط، في حين أن النموذج متعدد الأنماط مصمم بشكل واضح لأنواع متعددة من المدخلات.
  • نماذج الأساس: هذه فئة فئة أوسع تصف نماذج واسعة النطاق قابلة للتكيف مع العديد من المهام النهائية. غالبًا ما يكون النموذج متعدد الوسائط نوع من النماذج التأسيسية، لكن ليست كل النماذج التأسيسية متعددة الوسائط.

مستقبل الذكاء الاصطناعي متعدد الوسائط

يتقدم المجال بسرعة نحو نماذج يمكنها معالجة التدفقات المستمرة من الصوت والفيديو والنصوص في في الوقت الحقيقي. تستمر الأبحاث من مؤسسات مثل Google DeepMind في دفع حدود ما يمكن لهذه الأنظمة إدراكه. في شركة Ultralytics في حين أن شركتنا الرائدة YOLO11 الرائدة لدينا معيارًا للسرعة والدقة في في اكتشاف الأجسام، فإننا نبتكر أيضًا مع مع بنيات مثل YOLO26، والتي ستعزز من الكفاءة لكل من تطبيقات الحافة والتطبيقات السحابية. بالنظر إلى المستقبل، ستوفر ستوفر منصةUltralytics الشاملة بيئة موحدة لإدارة البيانات والتدريب والنشر لمهام سير عمل الذكاء الاصطناعي المتزايدة التعقيد.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن