اكتشف الذكاء الاصطناعي متعدد الوسائط، وهو المجال الذي تعالج فيه الأنظمة وتفهم البيانات المتنوعة مثل النصوص والصور والصوت. تعرف على كيفية عمله واستكشف التطبيقات الرئيسية.
يشير الذكاء الاصطناعي متعدد الوسائط إلى فرع متطور من فروع الذكاء الاصطناعي الذي يعالج ويفسر ويعلل باستخدام أنواع متعددة من البيانات في وقت واحد. على عكس الأنظمة التقليدية أحادية النمط التي تعتمد على مصدر إدخال واحد - مثل النماذج اللغوية الكبيرة النماذج اللغوية الكبيرة (LLMs) أو مصنفات الصور فقط مصنفات - تدمج الأنظمة متعددة الوسائط تدفقات البيانات المتنوعة مثل النصوص والصور والصوت والفيديو وقراءات أجهزة الاستشعار. يحاكي هذا النهج الإدراك البشري، الذي يجمع بشكل طبيعي بين البصر والصوت واللغة لتكوين فهم شامل للبيئة. فهم شامل للبيئة. من خلال تجميع هذه الطرائق المختلفة المختلفة، تحقق هذه الأنظمة دقة أعلى دقة أعلى ووعيًا بالسياق، لتقترب بذلك من قدرات الذكاء الاصطناعي العام (AGI).
تتضمن بنية النظام متعدد الوسائط بشكل عام ثلاث مراحل متميزة: الترميز والدمج وفك التشفير. أولاً، الشبكات العصبية المنفصلة، مثل الشبكات العصبية التلافيفية (CNNs) للبيانات المرئية والمحوّلات للبيانات النصية, تستخرج الميزات من كل نوع من المدخلات. يتم تحويل هذه الميزات إلى متجهات رقمية تعرف باسم التضمينات.
المرحلة الحاسمة هي الدمج، حيث يتم دمج هذه التضمينات في مساحة تمثيل مشتركة. تقنيات المتقدمة تستخدم آليات الانتباه لتقييم أهمية الطرائق المختلفة بالنسبة لبعضها البعض. على سبيل المثال، في مهمة تحليل الفيديو، قد يعطي النموذج إعطاء الأولوية للبيانات الصوتية عندما تتحدث الشخصية ولكن قد يحوّل التركيز إلى البيانات المرئية أثناء تسلسل الحركة. أطر عمل مثل PyTorch و TensorFlow يوفران العمود الفقري الحسابي لبناء هذه البنى المعقدة المعقدة.
يقود الذكاء الاصطناعي متعدد الوسائط الابتكار في مختلف القطاعات من خلال حل المشاكل التي تتطلب رؤية شاملة للبيانات.
في حين أن النماذج الكاملة متعددة الوسائط معقدة، إلا أن مكوناتها غالبًا ما تكون نماذج متخصصة يمكن الوصول إليها. على سبيل المثال، غالبًا ما يستخدم مكوّن الرؤية في خط أنابيب متعدد الوسائط غالبًا ما يستخدم كاشفًا عالي السرعة للأجسام. فيما يلي مثال يستخدم Ultralytics YOLO11 لاستخراج مفاهيم (فئات) بصرية من صورة، والتي يمكن بعد ذلك إدخالها في نموذج لغوي لمزيد من الاستدلال.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
من المفيد التفريق بين الذكاء الاصطناعي متعدد الوسائط والمصطلحات المشابهة لفهم المشهد بشكل أفضل:
يتطور المجال بسرعة نحو أنظمة يمكنها توليد وفهم أي طريقة بسلاسة. المؤسسات البحثية مؤسسات بحثية مثل Google ديب مايند و OpenAI تدفع حدود النماذج الأساسية لمواءمة أفضل بين النصوص والفضاءات البصرية الكامنة.
في Ultralytics نعمل باستمرار على تطوير عنصر الرؤية في هذا النظام البيئي. تم تصميم YOLO26 القادم لتقديم كفاءة ودقة أكبر ودقة أكبر، لتكون بمثابة العمود الفقري البصري القوي للتطبيقات المستقبلية متعددة الوسائط. يمكن للمستخدمين المهتمين بالاستفادة من هذه الإمكانيات استكشاف التكامل مع أدوات مثل LangChain لبناء أنظمة الاستدلال المعقدة الخاصة بهم.