Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الذكاء الاصطناعي متعدد الوسائط

استكشف الذكاء الاصطناعي متعدد الوسائط وكيفية دمجه بين النص والرؤية من أجل فهم السياق. تعلم كيفية استخدام Ultralytics ونماذج المفردات المفتوحة اليوم.

يشير مصطلح الذكاء الاصطناعي متعدد الوسائط إلى فئة متطورة من أنظمة الذكاء الاصطناعي (AI) المصممة لمعالجة وتفسير وتوليف المعلومات من أنواع مختلفة من البيانات، أو "الوسائط"، في وقت واحد. على عكس الأنظمة التقليدية أحادية الوسائط التي تتخصص في مصدر إدخال واحد —مثل معالجة اللغة الطبيعية (NLP) للنصوص أو الرؤية الحاسوبية (CV) للصور — يحاكي الذكاء الاصطناعي متعدد الوسائط الإدراك البشري من خلال دمج تدفقات البيانات المتنوعة. يمكن أن يشمل هذا الدمج الجمع بين البيانات المرئية (الصور والفيديو) والبيانات اللغوية (النصوص والصوت المنطوق) والمعلومات الحسية (LiDAR والرادار والحرارة). من خلال الاستفادة من هذه المدخلات المدمجة، تحقق هذه النماذج فهمًا أعمق وأكثر وعيًا بالسياق للسيناريوهات المعقدة في العالم الحقيقي، لتقترب أكثر من القدرات الواسعة للذكاء الاصطناعي العام (AGI).

كيف تعمل الأنظمة متعددة الوسائط

تكمن القوة الأساسية للذكاء الاصطناعي متعدد الوسائط في قدرته على تخطيط أنواع البيانات المختلفة في فضاء رياضي مشترك حيث يمكن مقارنتها ودمجها. تتضمن هذه العملية عادةً ثلاث مراحل رئيسية: الترميز والمواءمة والدمج .

  1. استخراج الميزات: تقوم الشبكات العصبية المتخصصة بمعالجة كل طريقة بشكل مستقل لتحديد الأنماط الرئيسية. على سبيل المثال، قد تستخرج الشبكة العصبية التلافيفية (CNN) الميزات البصرية من صورة فوتوغرافية، بينما يقوم المحول بمعالجة التعليق المصاحب لها.
  2. المحاذاة والتضمين: يتم تحويل الميزات المستخرجة إلى متجهات رقمية عالية الأبعاد. يتعلم النموذج محاذاة هذه المتجهات بحيث تكون المفاهيم المتشابهة من الناحية الدلالية (على سبيل المثال، صورة قطة وكلمة "قطة" في النص) قريبة من بعضها البعض في الفضاء المتجه. وغالبًا ما يتم تحقيق ذلك من خلال تقنيات مثل التعلم التبايني، وهي طريقة مشهورة تُستخدم في نماذج مثل CLIP من OpenAI.
  3. دمج البيانات: يقوم النظام بدمج البيانات المتوافقة باستخدام تقنيات دمج متقدمة. تستخدم البنى الحديثة آليات الانتباه لتقييم أهمية طريقة ما على أخرى بشكل ديناميكي اعتمادًا على السياق، مما يسمح للنموذج بالتركيز على النص عندما تكون الصورة غامضة، أو العكس.

تطبيقات واقعية

أطلق الذكاء الاصطناعي متعدد الوسائط العنان لقدرات كانت مستحيلة في السابق مع الأنظمة أحادية الوسيلة، مما أدى إلى دفع عجلة الابتكار في مختلف الصناعات.

  • الإجابة على الأسئلة المرئية (VQA): في هذا التطبيق، يمكن للمستخدم عرض صورة على الذكاء الاصطناعي وطرح أسئلة باللغة الطبيعية عنها. على سبيل المثال، قد يقوم مستخدم ضعيف البصر بتحميل صورة لمخزن الطعام ويسأل: "هل لدي أي معكرونة متبقية؟" يقوم النموذج بمعالجة المحتوى المرئي والاستعلام النصي لتقديم إجابة محددة.
  • المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على مدخلات متعددة الوسائط، حيث تجمع بين البيانات من الكاميرات وسحب النقاط LiDAR والرادار من أجل التنقل بأمان. يضمن هذا التكرار أنه في حالة تعطل أحد المستشعرات (على سبيل المثال، تعتيم الكاميرا بسبب وهج الشمس)، يمكن للآخرين الحفاظ على معايير السلامة المحددة من قبل جمعية مهندسي السيارات (SAE).
  • التشخيصات الطبية: تقوم أنظمة الذكاء الاصطناعي الطبية المتقدمة بتحليل الصور الطبية (مثل التصوير بالرنين المغناطيسي أو الأشعة السينية) إلى جانب سجل المريض النصي غير المنظم والبيانات الجينية. تساعد هذه النظرة الشاملة الأطباء في إجراء تشخيصات أكثر دقة، وهو موضوع يتم مناقشته بشكل متكرر في مجلة Nature Digital Medicine.
  • الذكاء الاصطناعي التوليدي: تعتمد الأدوات التي تنشئ صورًا من مطالبات نصية، مثل Stable Diffusion، اعتمادًا كليًا على قدرة النموذج على فهم العلاقة بين الأوصاف اللغوية والأنسجة البصرية.

الكشف عن المفردات المفتوحة باستخدام Ultralytics

بينما تعتمد أجهزة الكشف عن الأشياء القياسية على قوائم فئات محددة مسبقًا، تتيح الأساليب متعددة الوسائط مثل YOLO للمستخدمين detect باستخدام مطالبات نصية ذات مفردات مفتوحة. وهذا يسد الفجوة بين الأوامر اللغوية والتعرف البصري داخل Ultralytics .

يوضح المثال التالي كيفية استخدام ultralytics لإجراء عملية الكشف عن المفردات المفتوحة حيث يكتشف النموذج الكائنات بناءً على مدخلات نصية مخصصة:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

التمييز بين المصطلحات ذات الصلة

للتنقل في مجال التعلم الآلي الحديث، من المفيد التمييز بين "الذكاء الاصطناعي متعدد الوسائط" والمفاهيم ذات الصلة: :

  • التعلم متعدد الوسائط: يشير هذا إلى التخصص الأكاديمي ومنهجية تدريب الخوارزميات على أنواع البيانات المختلطة. يشير مصطلح "الذكاء الاصطناعي متعدد الوسائط" عمومًا إلى التطبيق العملي أو النظام الناتج نفسه.
  • نماذج اللغة الكبيرة (LLMs): نماذج اللغة الكبيرة التقليدية أحادية الوسيلة، ويتم تدريبها حصريًا على البيانات النصية. ومع ذلك، فإن الصناعة تتجه نحو "نماذج متعددة الوسائط الكبيرة" (LMMs) التي يمكنها معالجة الصور والنصوص بشكل أصلي، وهو اتجاه تدعمه أطر عمل مثل PyTorch و TensorFlow.
  • نماذج الرؤية المتخصصة: نماذج مثل أحدث نماذج Ultralytics هي نماذج متخصصة للغاية في المهام البصرية. في حين أن النموذج متعدد الوسائط العام قد يصف المشهد بشكل عام، فإن النماذج المتخصصة تتفوق في الكشف السريع والدقيق عن الأشياء والمعالجة في الوقت الفعلي على الأجهزة المتطورة.

التوقعات المستقبلية

يشير مسار الذكاء الاصطناعي متعدد الوسائط إلى أنظمة تتمتع بقدرات استدلالية أكبر. من خلال النجاح في ربط اللغة بالواقع البصري والمادي، تتجاوز هذه النماذج الترابط الإحصائي لتصل إلى فهم حقيقي. تواصل الأبحاث التي تجريها مؤسسات مثل Google و مركز ستانفورد لأبحاث النماذج الأساسية توسيع حدود كيفية إدراك الآلات للبيئات المعقدة.

في Ultralytics نقوم بدمج هذه التطورات في Ultralytics ، مما يتيح للمستخدمين إدارة البيانات وتدريب النماذج و نشر الحلول التي تستفيد من النطاق الكامل للطرق المتاحة، وتجمع بين سرعة YOLO26 وتعدد استخدامات المدخلات متعددة الوسائط.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن