اكتشف كيف تدمج نماذج الذكاء الاصطناعي متعددة الوسائط النصوص والصور والمزيد لإنشاء أنظمة قوية ومتعددة الاستخدامات للتطبيقات الواقعية.
النموذج متعدد الوسائط هو نظام ذكاء اصطناعي متقدم قادر على معالجة المعلومات وتفسيرها ودمجها من عدة أنواع مختلفة من البيانات، أو "الطرائق" في وقت واحد. على عكس الأنظمة أحادية النمط التقليدية التي تتخصص في مجال واحد - مثل معالجة اللغة الطبيعية (NLP) للنصوص أو الرؤية الحاسوبية (CV) للصور للصور - يمكن للنماذج متعددة الوسائط تحليل النصوص والصور والصوت والفيديو وبيانات الاستشعار معًا. يسمح هذا التقارب للنموذج بتطوير فهم أكثر شمولاً وشبه إنساني للعالم، حيث يمكنه استخلاص الارتباطات بين الإشارات البصرية والأوصاف اللغوية. هذه القدرة أساسية لتطوير الذكاء العام الاصطناعي المستقبلي الذكاء الاصطناعي العام (AGI) في المستقبل وتقود حاليًا الابتكار في مجالات تتراوح بين الروبوتات وإنشاء المحتوى الآلي.
وتعتمد فعالية النماذج متعددة الوسائط على قدرتها على تعيين أنواع مختلفة من البيانات في دلالي مشترك. تبدأ هذه العملية عادةً بتوليد التضمينات -التمثيلات العدديةللبيانات التي تلتقط معناها الأساسي. من خلال التدريب على مجموعات بيانات ضخمة من الأمثلة المزدوجة، مثل الصور مع التسميات التوضيحية، يتعلم النموذج يتعلم النموذج محاذاة تضمين صورة "كلب" مع تضمين النص لكلمة "كلب". "كلب".
الابتكارات المعمارية الرئيسية تجعل هذا التكامل ممكناً:
أتاحت النماذج متعددة الوسائط إمكانات جديدة كانت مستحيلة في السابق مع أنظمة الوسيلة الواحدة.
يوضح المثال التالي كيفية استخدام ultralytics لإجراء عملية الكشف عن المفردات المفتوحة
حيث يكتشف النموذج الكائنات بناءً على مدخلات نصية مخصصة:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
من المهم التفريق بين "النموذج متعدد الوسائط" والمفاهيم ذات الصلة في مسرد مصطلحات الذكاء الاصطناعي:
يتقدم المجال بسرعة نحو نماذج يمكنها معالجة التدفقات المستمرة من الصوت والفيديو والنصوص في في الوقت الحقيقي. تستمر الأبحاث من مؤسسات مثل Google DeepMind في دفع حدود ما يمكن لهذه الأنظمة إدراكه. في شركة Ultralytics في حين أن شركتنا الرائدة YOLO11 الرائدة لدينا معيارًا للسرعة والدقة في في اكتشاف الأجسام، فإننا نبتكر أيضًا مع مع بنيات مثل YOLO26، والتي ستعزز من الكفاءة لكل من تطبيقات الحافة والتطبيقات السحابية. بالنظر إلى المستقبل، ستوفر ستوفر منصةUltralytics الشاملة بيئة موحدة لإدارة البيانات والتدريب والنشر لمهام سير عمل الذكاء الاصطناعي المتزايدة التعقيد.