تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Multi-Modal Learning

استكشف التعلم متعدد الوسائط في الذكاء الاصطناعي. تعلم كيف يدمج النص والرؤية والصوت لنماذج قوية مثل Ultralytics YOLO26 وYOLO-World. اكتشف المزيد اليوم!

التعلم متعدد الوسائط هو نهج متطور في الذكاء الاصطناعي (AI) يقوم بتدريب الخوارزميات لمعالجة وفهم وربط المعلومات من أنواع متعددة ومتميزة من البيانات، أو "الوسائط". على عكس الأنظمة التقليدية التي تتخصص في نوع واحد من المدخلات—مثل النصوص للترجمة أو البكسلات لـ التعرف على الصور—يحاكي التعلم متعدد الوسائط الإدراك البشري من خلال دمج مدخلات حسية متنوعة مثل البيانات المرئية، والصوت المسموع، والأوصاف النصية، وقراءات المستشعرات. يتيح هذا النهج الشامل لنماذج التعلم الآلي (ML) تطوير فهم أعمق وواعٍ بالسياق للعالم، مما يؤدي إلى تنبؤات أكثر قوة وتنوعاً.

Link to this sectionكيف يعمل التعلم متعدد الوسائط#

يتمثل التحدي الجوهري في التعلم متعدد الوسائط في ترجمة أنواع البيانات المختلفة إلى مساحة رياضية مشتركة حيث يمكن مقارنتها ودمجها. تتضمن هذه العملية عموماً ثلاث مراحل رئيسية: الترميز، والمحاذاة، والدمج.

  1. استخراج الميزات: تقوم شبكات عصبية متخصصة بمعالجة كل وسيط بشكل مستقل. على سبيل المثال، قد تقوم الشبكات العصبية التلافيفية (CNNs) أو محولات الرؤية (ViTs) باستخراج ميزات من الصور، بينما تقوم الشبكات العصبية المتكررة (RNNs) أو المحولات بمعالجة النصوص.

  2. محاذاة التضمينات: يتعلم النموذج تعيين هذه الميزات المتنوعة إلى متجهات مشتركة عالية الأبعاد. في هذه المساحة المشتركة، يتم تقريب متجه كلمة "قطة" ومتجه صورة قطة من بعضهما البعض. تعد تقنيات مثل التعلم التبايني، التي اشتهرت من خلال أوراق بحثية مثل CLIP من OpenAI، ضرورية هنا.

  3. دمج البيانات: أخيراً، يتم دمج المعلومات لأداء مهمة ما. يمكن أن يحدث الدمج في مرحلة مبكرة (دمج البيانات الخام)، أو في مرحلة متأخرة (دمج التنبؤات النهائية)، أو عبر طرق هجينة وسيطة باستخدام آلية الانتباه لوزن أهمية كل وسيط بشكل ديناميكي.

Link to this sectionتطبيقات العالم الحقيقي#

يعد التعلم متعدد الوسائط المحرك وراء العديد من أكثر إنجازات الذكاء الاصطناعي إثارة للإعجاب اليوم، حيث يعمل على سد الفجوة بين صوامع البيانات المتميزة لحل المشكلات المعقدة.

  • الإجابة المرئية على الأسئلة (VQA): في هذا التطبيق، يجب على النظام تحليل صورة والإجابة على سؤال باللغة الطبيعية حولها، مثل "ما هو لون إشارة المرور؟". يتطلب هذا من النموذج فهم دلالات النص وتحديد العناصر المرئية المقابلة مكانياً باستخدام الرؤية الحاسوبية.
  • المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على دمج المستشعرات، حيث تجمع بين البيانات من سحب نقاط LiDAR، وموجزات الفيديو من الكاميرات، والرادار للتنقل بأمان. يضمن هذا الإدخال متعدد الوسائط أنه في حالة تعطل مستشعر واحد (على سبيل المثال، كاميرا أصيبت بالعمى بسبب وهج الشمس)، يمكن للآخرين الحفاظ على السلامة على الطرق.
  • تشخيصات الرعاية الصحية: يستخدم الذكاء الاصطناعي في الرعاية الصحية التعلم متعدد الوسائط من خلال تحليل تحليل الصور الطبية (مثل التصوير بالرنين المغناطيسي أو الأشعة السينية) جنباً إلى جنب مع التاريخ المرضي النصي غير المهيكل والبيانات الجينية. تساعد هذه النظرة الشاملة الأطباء في إجراء تشخيصات أكثر دقة، وهو موضوع يُناقش بشكل متكرر في مجلات Nature للطب الرقمي.
  • الذكاء الاصطناعي التوليدي: تعتمد الأدوات التي تنشئ صوراً من مطالبات نصية، مثل Stable Diffusion، كلياً على قدرة النموذج على فهم العلاقة بين الأوصاف اللغوية والقوام المرئي.

Link to this sectionاكتشاف الكائنات متعدد الوسائط مع Ultralytics#

بينما تعتمد أجهزة كشف الكائنات القياسية على فئات محددة مسبقاً، تتيح الأساليب متعددة الوسائط مثل YOLO-World للمستخدمين اكتشاف الكائنات باستخدام مطالبات نصية مفتوحة المفردات. يوضح هذا قوة ربط المفاهيم النصية بالميزات المرئية داخل نظام Ultralytics البيئي.

يوضح مقتطف كود Python التالي كيفية استخدام نموذج YOLO-World مدرب مسبقاً لاكتشاف الكائنات بناءً على مدخلات نصية مخصصة.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionتمييز المصطلحات الرئيسية#

للتنقل في مشهد الذكاء الاصطناعي الحديث، من المفيد التمييز بين 'التعلم متعدد الوسائط' والمفاهيم ذات الصلة:

  • نموذج متعدد الوسائط: يشير "التعلم متعدد الوسائط" إلى المنهجية ومجال الدراسة. بينما "النموذج متعدد الوسائط" (مثل GPT-4 أو Gemini من Google) هو المنتج الفعلي أو البرنامج الناتج عن عملية التدريب تلك.
  • الذكاء الاصطناعي أحادي الوسائط: الرؤية الحاسوبية التقليدية هي بشكل عام أحادية الوسائط، حيث تركز حصرياً على البيانات المرئية. على الرغم من أن نموذجاً مثل Ultralytics YOLO26 يعد أداة رؤية حاسوبية متطورة لاكتشاف الكائنات، إلا أنه يعمل عادةً على مدخلات مرئية فقط ما لم يكن جزءاً من خط أنابيب متعدد الوسائط أكبر.
  • نماذج اللغات الكبيرة (LLMs): النماذج اللغوية التقليدية أحادية الوسائط، حيث يتم تدريبها على النصوص فقط. ومع ذلك، يتحول القطاع نحو "نماذج متعددة الوسائط كبيرة" (LMMs) يمكنها معالجة الصور والنصوص بشكل أصلي، وهو اتجاه مدعوم بأطر عمل مثل PyTorch و TensorFlow.

Link to this sectionالنظرة المستقبلية#

تشير مسيرة التعلم متعدد الوسائط نحو أنظمة تمتلك خصائص الذكاء الاصطناعي العام (AGI). من خلال ربط اللغة بنجاح بالواقع المرئي والمادي، تتجاوز هذه النماذج الارتباط الإحصائي نحو التفكير الحقيقي. تواصل الأبحاث الصادرة عن مؤسسات مثل MIT CSAIL و مركز ستانفورد لأبحاث النماذج التأسيسية دفع حدود كيفية إدراك الآلات للبيئات المعقدة ومتعددة الحواس والتفاعل معها.

في Ultralytics، نقوم بدمج هذه التطورات في منصة Ultralytics الخاصة بنا، مما يمكّن المستخدمين من إدارة البيانات، وتدريب النماذج، ونشر حلول تستفيد من الطيف الكامل للوسائط المتاحة، بدءاً من سرعة YOLO26 وصولاً إلى تنوع الاكتشاف مفتوح المفردات.

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة