اكتشف الإجابة عن الأسئلة المرئية (VQA): كيف يجمع الذكاء الاصطناعي متعدد الوسائط بين الرؤية الحاسوبية والبرمجة اللغوية العصبية للإجابة عن الأسئلة المستندة إلى الصور، مع الأساليب الرئيسية وحالات الاستخدام في العالم الحقيقي.
الإجابة على الأسئلة البصرية (VQA) هي مهمة متطورة متعددة التخصصات ضمن الذكاء الاصطناعي (AI) التي تسد الفجوة بين الرؤية الحاسوبية (CV) و ومعالجة اللغات الطبيعية (NLP). في حين تركز أنظمة الرؤية الحاسوبية التقليدية على التعرف على الأشياء أو تصنيف الصور، تم تصميم أنظمة VQA لتوفير إجابة بلغة طبيعية على سؤال محدد بناءً على المحتوى المرئي للصورة. على سبيل المثال, عند إعطاء صورة لمشهد في الشارع والسؤال "ما لون السيارة على اليسار؟ " الصورة، ويحدد موقع الكائن المحدد، ويحدد سماته، ويصوغ إجابة نصية صحيحة. هذه هذه القدرة على التفكير عبر طرائق بيانات مختلفة تجعل من الذكاء الاصطناعي متعدد الوسائط مكونًا أساسيًا من مكونات الذكاء الاصطناعي المتقدم متعدد الوسائط.
وعادةً ما تتضمن بنية نظام VQA ثلاث مراحل رئيسية: استخراج الخصائص، ودمج الوسائط المتعددة، و توليد الإجابات. في البداية، يستخدم النظام نماذج التعلم العميق لمعالجة المدخلات. نموذج رؤية، مثل الشبكة العصبية التلافيفية (CNN) أو محول الرؤية (ViT)، يستخرج الميزات المرئية من الصورة. في نفس الوقت، يتم ترميز السؤال النصي وتحويله إلى تضمينات باستخدام نماذج لغوية.
وتتمثل الخطوة الحاسمة في دمج هذين التدفقين للمعلومات. غالبًا ما تستخدم الأنظمة الحديثة آلية الانتباه، وهو مفهوم شاع في الورقة البحثية "الانتباه هو كل ما تحتاجه"، لمواءمة الكلمات النصية مع المناطق المقابلة في الصورة. هذا يسمح للنموذج "بالنظر" إلى الجزء ذي الصلة من الصورة (على سبيل المثال، السيارة) عند معالجة كلمة "لون". أخيرًا، يتنبأ النموذج بالإجابة, يعالج المشكلة بشكل فعال كمهمة تصنيف متخصصة على مجموعة من الإجابات المحتملة. يتطلب تدريب هذه النماذج يتطلب تدريب هذه النماذج بيانات تدريب ضخمة مشروحة، مثل مثل مجموعة البيانات القياسية VQA Dataset، والتي تحتوي على ملايين من ثلاثية الأسئلة والأجوبة ثلاثة توائم.
في حين أن أنظمة VQA معقدة، إلا أن المكون المرئي غالباً ما يعتمد على قدرات كشف قوية. يمكنك أن ترى كيف يستخرج يستخرج نموذج مثل YOLO11 بيانات الكائنات التأسيسية أدناه:
from ultralytics import YOLO
# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()
تعمل تقنية VQA على تحويل الصناعات من خلال تمكين الآلات من فهم السياق بطريقة تشبه الإنسان.
لفهم VQA بشكل كامل، من المفيد تمييزه عن المصطلحات المشابهة في في مجال التعلم الآلي (ML):
يتم تطوير VQA بواسطة أطر عمل مفتوحة المصدر مثل PyTorch و TensorFlowويستمر في التطور مع ظهور نماذج اللغات الكبيرة (LLMs) المدمجة في خطوط أنابيب الرؤية.