اكتشف الإجابة عن الأسئلة المرئية (VQA): كيف يجمع الذكاء الاصطناعي متعدد الوسائط بين الرؤية الحاسوبية والبرمجة اللغوية العصبية للإجابة عن الأسئلة المستندة إلى الصور، مع الأساليب الرئيسية وحالات الاستخدام في العالم الحقيقي.
الإجابة على الأسئلة المرئية (VQA) هي مهمة متعددة التخصصات صعبة تقع في تقاطع الرؤية الحاسوبية (CV) و معالجة اللغة الطبيعية (NLP). على عكس التصنيف القياسي للصور، حيث يقوم النظام ببساطة بتعيين تسمية لصورة ما، فإن أنظمة VQA مصممة للإجابة على أسئلة مفتوحة حول صورة ما باستخدام اللغة الطبيعية. على سبيل المثال، إذا عُرضت صورة لمشهد شارع ، فقد يسأل المستخدم: "ما لون السيارة المجاورة لصنبور إطفاء الحريق؟" للإجابة بشكل صحيح، يجب أن يفهم الذكاء الاصطناعي السؤال، ويحدد موقع الكائنات المذكورة (السيارة، صنبور إطفاء الحريق)، ويفهم العلاقة المكانية بينها (مجاورة )، ويحدد السمة المحددة (اللون).
هذه القدرة تجعل VQA حجر الزاوية في الذكاء الاصطناعي المتعدد الوسائط الحديث، حيث تتطلب نموذجًا للتفكير عبر أنواع مختلفة من البيانات في وقت واحد. يستخدم النظام عادةً مشفر رؤية، مثل الشبكة العصبية التلافيفية (CNN) أو محول الرؤية (ViT)، لتفسير السمات البصرية، ومشفّر نص لمعالجة الاستعلام اللغوي. ثم يتم دمج هذه المدخلات باستخدام تقنيات الاندماج ، غالبًا باستخدام آلية الانتباه للتركيز على الأجزاء ذات الصلة من الصورة التي تتوافق مع الكلمات في السؤال.
تفتح القدرة على الاستعلام عن البيانات المرئية ديناميكيًا إمكانيات كبيرة في مختلف الصناعات.
على الرغم من وجود نماذج VQA شاملة، تعتمد العديد من خطوط الإنتاج العملية على الكشف القوي عن الكائنات كخطوة أساسية. يقوم جهاز الكشف بتحديد الكائنات وتحديد مواقعها، مما يوفر السياق اللازم لمحرك الإجابة.
على سبيل المثال، يمكنك استخدام YOLO26 لاستخراج فئات الكائنات ومواقعها، والتي يمكن بعد ذلك إدخالها في نموذج لغوي أو وحدة استدلال متخصصة.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
print(r.boxes.cls) # Class indices
r.show() # Visualize the context
من المهم التمييز بين VQA ومهام اللغة البصرية الأخرى لفهم دورها المحدد.
غالبًا ما تستخدم الأبحاث الحديثة مجموعات بيانات واسعة النطاق مثل مجموعة بيانات VQA لتدريب هذه النماذج، مما يساعدها على التعميم عبر ملايين أزواج الصور والأسئلة. مع استمرار تطور نماذج اللغة الكبيرة (LLMs) ، يتم دمج قدرات VQA بشكل متزايد مباشرة في النماذج الأساسية، مما يطمس الحدود الفاصلة بين مهام الرؤية البحتة ومهام اللغة البحتة.