Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الإجابة على الأسئلة المرئية (VQA)

اكتشف الإجابة عن الأسئلة المرئية (VQA): كيف يجمع الذكاء الاصطناعي متعدد الوسائط بين الرؤية الحاسوبية والبرمجة اللغوية العصبية للإجابة عن الأسئلة المستندة إلى الصور، مع الأساليب الرئيسية وحالات الاستخدام في العالم الحقيقي.

الإجابة على الأسئلة البصرية (VQA) هي مهمة متطورة متعددة التخصصات ضمن الذكاء الاصطناعي (AI) التي تسد الفجوة بين الرؤية الحاسوبية (CV) و ومعالجة اللغات الطبيعية (NLP). في حين تركز أنظمة الرؤية الحاسوبية التقليدية على التعرف على الأشياء أو تصنيف الصور، تم تصميم أنظمة VQA لتوفير إجابة بلغة طبيعية على سؤال محدد بناءً على المحتوى المرئي للصورة. على سبيل المثال, عند إعطاء صورة لمشهد في الشارع والسؤال "ما لون السيارة على اليسار؟ " الصورة، ويحدد موقع الكائن المحدد، ويحدد سماته، ويصوغ إجابة نصية صحيحة. هذه هذه القدرة على التفكير عبر طرائق بيانات مختلفة تجعل من الذكاء الاصطناعي متعدد الوسائط مكونًا أساسيًا من مكونات الذكاء الاصطناعي المتقدم متعدد الوسائط.

كيفية عمل الإجابة على الأسئلة المرئية

وعادةً ما تتضمن بنية نظام VQA ثلاث مراحل رئيسية: استخراج الخصائص، ودمج الوسائط المتعددة، و توليد الإجابات. في البداية، يستخدم النظام نماذج التعلم العميق لمعالجة المدخلات. نموذج رؤية، مثل الشبكة العصبية التلافيفية (CNN) أو محول الرؤية (ViT)، يستخرج الميزات المرئية من الصورة. في نفس الوقت، يتم ترميز السؤال النصي وتحويله إلى تضمينات باستخدام نماذج لغوية.

وتتمثل الخطوة الحاسمة في دمج هذين التدفقين للمعلومات. غالبًا ما تستخدم الأنظمة الحديثة آلية الانتباه، وهو مفهوم شاع في الورقة البحثية "الانتباه هو كل ما تحتاجه"، لمواءمة الكلمات النصية مع المناطق المقابلة في الصورة. هذا يسمح للنموذج "بالنظر" إلى الجزء ذي الصلة من الصورة (على سبيل المثال، السيارة) عند معالجة كلمة "لون". أخيرًا، يتنبأ النموذج بالإجابة, يعالج المشكلة بشكل فعال كمهمة تصنيف متخصصة على مجموعة من الإجابات المحتملة. يتطلب تدريب هذه النماذج يتطلب تدريب هذه النماذج بيانات تدريب ضخمة مشروحة، مثل مثل مجموعة البيانات القياسية VQA Dataset، والتي تحتوي على ملايين من ثلاثية الأسئلة والأجوبة ثلاثة توائم.

في حين أن أنظمة VQA معقدة، إلا أن المكون المرئي غالباً ما يعتمد على قدرات كشف قوية. يمكنك أن ترى كيف يستخرج يستخرج نموذج مثل YOLO11 بيانات الكائنات التأسيسية أدناه:

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

تطبيقات واقعية

تعمل تقنية VQA على تحويل الصناعات من خلال تمكين الآلات من فهم السياق بطريقة تشبه الإنسان.

  1. التكنولوجيا المساعدة لضعاف البصر: أحد أكثر التطبيقات تأثيراً في أدوات إمكانية الوصول. تستفيد تطبيقات مثل Be My Eyes من الاستدلال البصري من أجل وصف البيئة المحيطة للمستخدمين المكفوفين أو ضعاف البصر. يمكن للمستخدم أن يلتقط صورة لمخزن الطعام الخاص به ويسأل، "هل هذه "، مما يسمح بمزيد من الاستقلالية في الحياة اليومية.
  2. تحليل الصور الطبية: في الذكاء الاصطناعي في مجال الرعاية الصحية، يساعد تحليل جودة الصورة الطبية المتخصصين من خلال العمل كرأي ثانٍ ذكي. قد يستفسر أخصائي الأشعة من النظام عن فحص التصوير بالرنين المغناطيسي بأسئلة مثل "هل هناك أي علامات على وجود كسر في هذه المنطقة؟ تبرز الأبحاث المؤرشفة في PubMed يسلط الضوء على كيفية قيام هذه الأنظمة بتحسين وتسريع سير العمل السريري.
  3. المراقبة الذكية: يستخدم مشغلو الأمن VQA للاستعلام عن ساعات من لقطات الفيديو على الفور. بدلاً من مشاهدة اللقطات يدوياً، يستخدم المشغل الذي يستخدم الذكاء الاصطناعي في الأمن ببساطة كتابة "هل دخلت شاحنة حمراء إلى المنشأة بعد منتصف الليل؟" لاسترداد الأحداث ذات الصلة.

العلاقة بالمفاهيم ذات الصلة

لفهم VQA بشكل كامل، من المفيد تمييزه عن المصطلحات المشابهة في في مجال التعلم الآلي (ML):

  • VQA مقابل التعليق على الصور: تتضمن التسمية التوضيحية للصور إنشاء وصف عام لصورة كاملة (على سبيل المثال، "كلب يلعب في في الحديقة"). على النقيض من ذلك، فإن VQA موجه نحو الهدف ويجيب على استفسار محدد، مما يتطلب المزيد من التفكير المستهدف.
  • التأريض البصري مقابل التأريض البصري: التأريض هو مهمة تحديد موقع كائن محدد مذكور في وصف نصي (على سبيل المثال، رسم مربعًا محددًا حول "الرجل ذو القميص الأزرق "). وغالبًا ما يستخدم VQA التأريض كخطوة وسيطة للإجابة عن سؤال حول هذا الكائن.
  • VQA مقابل الكشف عن الكائنات: نماذج الكشف مثل YOLO11 تحديد ما هو موجود في الصورة ومكان وجوده. VQA خطوة إلى الأمام لفهم سمات وعلاقات تلك الكائنات لتلبية استعلام المستخدم.

يتم تطوير VQA بواسطة أطر عمل مفتوحة المصدر مثل PyTorch و TensorFlowويستمر في التطور مع ظهور نماذج اللغات الكبيرة (LLMs) المدمجة في خطوط أنابيب الرؤية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن