الذكاء الاصطناعي متعدد الوسائط
اكتشف الذكاء الاصطناعي متعدد الوسائط، وهو المجال الذي تعالج فيه الأنظمة وتفهم البيانات المتنوعة مثل النصوص والصور والصوت. تعرف على كيفية عمله واستكشف التطبيقات الرئيسية.
يشير مصطلح الذكاء الاصطناعي متعدد الوسائط إلى فئة متطورة من
أنظمة الذكاء الاصطناعي (AI)
المصممة لمعالجة وتفسير وتوليف المعلومات من أنواع مختلفة من البيانات، أو
"الوسائط"، في وقت واحد. على عكس الأنظمة التقليدية أحادية الوسيلة التي تتخصص في مصدر إدخال واحد
—مثل
معالجة اللغة الطبيعية (NLP)
للنصوص أو الرؤية الحاسوبية (CV) للصور
— يحاكي الذكاء الاصطناعي متعدد الوسائط الإدراك البشري من خلال دمج تدفقات البيانات المتنوعة. ويمكن أن يشمل ذلك الجمع بين
البيانات المرئية (الصور والفيديو) والبيانات اللغوية (النصوص والصوت المنطوق) والمعلومات الحسية (LiDAR والرادار والحرارة). من خلال
الاستفادة من هذه المدخلات المجمعة، تحقق هذه النماذج فهمًا أعمق وأكثر وعيًا بالسياق لسيناريوهات العالم الحقيقي المعقدة
، لتقترب أكثر من قدرات
الذكاء الاصطناعي العام (AGI).
الميكانيكا الأساسية للأنظمة متعددة الوسائط
تكمن قوة الذكاء الاصطناعي متعدد الوسائط في قدرته على تخطيط أنواع البيانات المختلفة في فضاء رياضي مشترك.
تتضمن هذه العملية عمومًا ثلاث مراحل رئيسية: الترميز والدمج وفك الترميز.
-
استخراج الميزات: تقوم
الشبكات العصبية المتخصصة (NN) بترميز كل طريقة. على سبيل
المثال، قد تقوم
الشبكة العصبية التلافيفية (CNN)
بمعالجة صورة لاستخراج الميزات البصرية، بينما يقوم
المحول بمعالجة النص المصاحب.
-
التضمين والمواءمة: يتم تحويل الميزات المستخرجة إلى
تضمينات— متجهات رقمية عالية الأبعاد. يقوم
النموذج بمواءمة هذه المتجهات بحيث تكون المفاهيم المتشابهة من الناحية الدلالية (على سبيل المثال، صورة قطة وكلمة
"قطة") قريبة من بعضها البعض في الفضاء المتجه. وغالبًا ما يتم تحقيق ذلك من خلال تقنيات مثل
التعلم التبايني، الذي يشتهر باستخدامه في
نماذج مثل CLIP من OpenAI.
-
الاندماج: يقوم النظام بدمج البيانات المتوافقة باستخدام
تقنيات الاندماج. تسمح آليات الانتباه المتقدمة
للنموذج بتقييم أهمية طريقة ما على أخرى بشكل ديناميكي اعتمادًا على السياق، وهو مفهوم مفصل
في الورقة الأساسية "الانتباه هو كل ما تحتاجه".
تطبيقات واقعية
تُحدث الذكاء الاصطناعي متعدد الوسائط ثورة في الصناعات من خلال حل المشكلات التي تتطلب رؤية شاملة للبيئة.
-
الإجابة على الأسئلة البصرية (VQA):
يتيح هذا التطبيق للمستخدمين الاستعلام عن الصور باستخدام اللغة الطبيعية. على سبيل المثال، يمكن للمستخدم المعاق بصريًا
عرض صورة لمخزن الطعام والسؤال: "هل توجد علبة حساء على الرف العلوي؟" يستخدم النظام
اكتشاف الكائنات لتحديد العناصر و NLP لفهم
السؤال المحدد، وتقديم رد صوتي.
-
المركبات ذاتية القيادة:
تعتمد السيارات ذاتية القيادة على دمج أجهزة الاستشعار للتنقل
بأمان. فهي تجمع بين الصور المرئية من الكاميرات وبيانات العمق من LiDAR وبيانات السرعة من الرادار. ويضمن هذا
النهج متعدد الوسائط أنه في حالة تعطل أحد أجهزة الاستشعار (على سبيل المثال، تعتيم الكاميرا بسبب وهج الشمس)، يمكن للنظام
الاستمرار detect والحفاظ على
السلامة على الطريق.
-
الذكاء الاصطناعي في الرعاية الصحية: تدمج
أدوات التشخيص الحديثة
تحليل الصور الطبية (الأشعة السينية، التصوير بالرنين المغناطيسي) مع
البيانات النصية غير المنظمة مثل الملاحظات السريرية وتاريخ المريض. من خلال تحليل هذه الطرق معًا، يمكن للأطباء
الحصول على تقييمات أكثر دقة للمخاطر وخطط علاج مخصصة.
الكشف عن المفردات المفتوحة باستخدام Ultralytics
ومن الأمثلة العملية على الذكاء الاصطناعي متعدد الوسائط اكتشاف الكائنات ذات المفردات المفتوحة، حيث يكتشف النموذج الكائنات بناءً على
مطالبات نصية عشوائية بدلاً من قائمة فئات مدربة مسبقًا. ويُظهر نموذج
Ultralytics YOLO هذه
القدرة، حيث يسد الفجوة بين الأوامر اللغوية والتعرف البصري.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the multimodal detection results
results[0].show()
التمييز بين المصطلحات الرئيسية
من المفيد التمييز بين "الذكاء الاصطناعي متعدد الوسائط" والمفاهيم ذات الصلة لفهم المشهد بشكل أفضل:
-
التعلم متعدد الوسائط: يشير هذا
إلى التخصص الأكاديمي وعملية تدريب الخوارزميات على أنواع البيانات المختلطة. الذكاء الاصطناعي متعدد الوسائط هو
التطبيق العملي أو نتيجة عملية التعلم هذه.
-
نماذج اللغة الكبيرة (LLMs):
نماذج اللغة الكبيرة التقليدية أحادية الوسيلة، وتعالج النص فقط. في حين أن العديد منها يتطور إلى نماذج الرؤية واللغة (VLMs)، فإن
نموذج اللغة الكبيرة القياسي لا يعالج البيانات المرئية بطبيعته دون محولات إضافية.
-
نماذج الرؤية المتخصصة: نماذج مثل
Ultralytics المتطورة هي نماذج متخصصة للغاية في
المهام البصرية. في حين أن النموذج متعدد الوسائط العام قد يصف المشهد بشكل عام، فإن النماذج المتخصصة تتفوق في
تقسيم الحالات بدقة
وسرعة عالية
والمعالجة في الوقت الفعلي على الأجهزة المتطورة.
التوجهات المستقبلية
يتجه هذا المجال نحو نماذج الأساس التي
تكون متعددة الوسائط منذ البداية، بدلاً من ربط شبكات منفصلة معاً. تواصل الأبحاث التي تجريها مؤسسات
مثل Google توسيع حدود كيفية إدراك الذكاء الاصطناعي
للعالم. في Ultralytics، يمثل إصدار
YOLO26 معيارًا جديدًا للكفاءة في مكون الرؤية
في هذه الخطوط الإنتاجية، مما يضمن أن تكون "عيون" الأنظمة متعددة الوسائط أسرع وأكثر
دقة من أي وقت مضى.