Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الإجابة على الأسئلة المرئية (VQA)

اكتشف الإجابة عن الأسئلة المرئية (VQA): كيف يجمع الذكاء الاصطناعي متعدد الوسائط بين الرؤية الحاسوبية والبرمجة اللغوية العصبية للإجابة عن الأسئلة المستندة إلى الصور، مع الأساليب الرئيسية وحالات الاستخدام في العالم الحقيقي.

الإجابة على الأسئلة المرئية (VQA) هي مهمة متعددة التخصصات صعبة تقع في تقاطع الرؤية الحاسوبية (CV) و معالجة اللغة الطبيعية (NLP). على عكس التصنيف القياسي للصور، حيث يقوم النظام ببساطة بتعيين تسمية لصورة ما، فإن أنظمة VQA مصممة للإجابة على أسئلة مفتوحة حول صورة ما باستخدام اللغة الطبيعية. على سبيل المثال، إذا عُرضت صورة لمشهد شارع ، فقد يسأل المستخدم: "ما لون السيارة المجاورة لصنبور إطفاء الحريق؟" للإجابة بشكل صحيح، يجب أن يفهم الذكاء الاصطناعي السؤال، ويحدد موقع الكائنات المذكورة (السيارة، صنبور إطفاء الحريق)، ويفهم العلاقة المكانية بينها (مجاورة )، ويحدد السمة المحددة (اللون).

هذه القدرة تجعل VQA حجر الزاوية في الذكاء الاصطناعي المتعدد الوسائط الحديث، حيث تتطلب نموذجًا للتفكير عبر أنواع مختلفة من البيانات في وقت واحد. يستخدم النظام عادةً مشفر رؤية، مثل الشبكة العصبية التلافيفية (CNN) أو محول الرؤية (ViT)، لتفسير السمات البصرية، ومشفّر نص لمعالجة الاستعلام اللغوي. ثم يتم دمج هذه المدخلات باستخدام تقنيات الاندماج ، غالبًا باستخدام آلية الانتباه للتركيز على الأجزاء ذات الصلة من الصورة التي تتوافق مع الكلمات في السؤال.

تطبيقات واقعية

تفتح القدرة على الاستعلام عن البيانات المرئية ديناميكيًا إمكانيات كبيرة في مختلف الصناعات.

  • التكنولوجيا المساعدة للمستخدمين ذوي الإعاقة البصرية: تعد VQA تقنية مهمة لتطبيقات إمكانية الوصول مثل Be My Eyes. من خلال دمج VQA، تتيح هذه التطبيقات للمستخدمين توجيه كاميرا هواتفهم الذكية نحو محيطهم وطرح أسئلة مثل "هل هذه زجاجة شامبو أم بلسم؟" أو "هل إشارة المرور خضراء؟" يعالج النظام بث الفيديو المباشر ويقدم إجابة صوتية، مما يعزز الاستقلالية.
  • المراقبة والأمن الذكيان: في مجال الذكاء الاصطناعي في مجال الأمن، غالبًا ما يحتاج المشغلون إلى فحص ساعات من اللقطات. بدلاً من المراجعة اليدوية، يتيح النظام المزود بـ VQA لموظفي الأمن طرح أسئلة طبيعية مثل "هل دخلت شاحنة حمراء إلى رصيف التحميل بعد منتصف الليل؟" أو "كم عدد الأشخاص الذين يرتدون خوذات؟" وهذا يبسط عملية الكشف عن الحالات الشاذة ويحسن أوقات الاستجابة .

كيفية ارتباط VQA باكتشاف الكائنات

على الرغم من وجود نماذج VQA شاملة، تعتمد العديد من خطوط الإنتاج العملية على الكشف القوي عن الكائنات كخطوة أساسية. يقوم جهاز الكشف بتحديد الكائنات وتحديد مواقعها، مما يوفر السياق اللازم لمحرك الإجابة.

على سبيل المثال، يمكنك استخدام YOLO26 لاستخراج فئات الكائنات ومواقعها، والتي يمكن بعد ذلك إدخالها في نموذج لغوي أو وحدة استدلال متخصصة.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

التمييز بين VQA والمصطلحات ذات الصلة

من المهم التمييز بين VQA ومهام اللغة البصرية الأخرى لفهم دورها المحدد.

  • VQA مقابل تعليق الصور: يولد تعليق الصور وصفًا عامًا للصورة بأكملها (على سبيل المثال، "كلب يلعب في العشب"). VQA أكثر تحديدًا وتفاعلية؛ فهو يجيب على سؤال محدد بدلاً من تقديم ملخص عام.
  • VQA مقابل Visual Grounding: يركز Visual Grounding على تحديد موقع كائن معين مذكور في جملة (على سبيل المثال، رسم مربع حول "الرجل الطويل"). VQA يذهب إلى أبعد من ذلك، فهو لا يقتصر على تحديد موقع الكائن فحسب، بل يحلل أيضًا خصائصه أو علاقاته للإجابة على الاستفسار.
  • VQA مقابل التعرف الضوئي على الحروف (OCR): يستخرج OCR النص من الصور. في حين أن VQA قد يستخدم OCR للإجابة على سؤال مثل "ماذا تقول اللافتة ؟"، فإن VQA هو قدرة أوسع نطاقًا تشمل فهم الأشياء والأفعال والمشاهد، وليس مجرد قراءة النص.

غالبًا ما تستخدم الأبحاث الحديثة مجموعات بيانات واسعة النطاق مثل مجموعة بيانات VQA لتدريب هذه النماذج، مما يساعدها على التعميم عبر ملايين أزواج الصور والأسئلة. مع استمرار تطور نماذج اللغة الكبيرة (LLMs) ، يتم دمج قدرات VQA بشكل متزايد مباشرة في النماذج الأساسية، مما يطمس الحدود الفاصلة بين مهام الرؤية البحتة ومهام اللغة البحتة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن