استكشف الإجابة البصرية على الأسئلة (VQA) عند تقاطع CV و NLP. تعرف على كيفية قيام Ultralytics بتشغيل VQA للتطبيقات في الوقت الفعلي والذكاء الاصطناعي متعدد الوسائط.
الإجابة على الأسئلة البصرية (VQA) هي مهمة ذكاء اصطناعي متطورة تقع في تقاطع الرؤية الحاسوبية (CV) و معالجة اللغة الطبيعية (NLP). على عكس التصنيف التقليدي للصور، الذي يعطي تسمية واحدة لكل صورة، فإن أنظمة VQA مصممة للإجابة على أسئلة مفتوحة باللغة الطبيعية حول المحتوى البصري للصورة. على سبيل المثال، عند عرض صورة مطبخ، قد يسأل المستخدم: "هل الموقد مشتعل؟" أو "كم عدد التفاحات الموجودة في الوعاء؟" للإجابة بشكل صحيح، يجب أن يفهم النموذج دلالات النص، ويحدد الكائنات ذات الصلة داخل المشهد، و يستنتج سماتها وعلاقاتها المكانية.
هذه القدرة تجعل VQA مكونًا أساسيًا في الذكاء الاصطناعي متعدد الوسائط الحديث، حيث تتطلب معالجة أنواع مختلفة من البيانات في وقت واحد. تتضمن البنية عادةً مشفر رؤية، مثل شبكة عصبية تلافيفية (CNN) أو محول الرؤية (ViT)، لاستخراج الميزات من الصورة، ومشفّر نص لمعالجة الاستعلام اللغوي. تستخدم الأنظمة المتقدمة آلية الانتباه لمواءمة المفاهيم النصية مع مناطق محددة من الصورة، مما يسمح للذكاء الاصطناعي "بالنظر" إلى الأجزاء ذات الصلة من الصورة قبل إنشاء إجابة.
أدت القدرة على الاستعلام عن البيانات المرئية ديناميكيًا إلى تطبيقات تحويلية في مختلف الصناعات، مما عزز الأتمتة وإمكانية الوصول.
في حين أن بعض نماذج VQA يتم تدريبها من البداية إلى النهاية، فإن العديد منها يعتمد على بنية أساسية قوية للكشف عن الكائنات لتحديد عناصر المشهد أولاً. يوفر تحديد موقع الكائنات بدقة السياق اللازم لمحرك الاستدلال. يعد نموذج Ultralytics أساسًا ممتازًا لهذه الأنابيب بسبب دقته العالية وأدائه في الوقت الفعلي.
على سبيل المثال، يمكن للمطورين استخدام YOLO26 لاستخراج فئات الكائنات والمربعات المحيطة، والتي يتم بعد ذلك إدخالها في نموذج لغوي كبير (LLM) أو وحدة استدلال متخصصة للإجابة على استفسارات المستخدمين. غالبًا ما يتم تبسيط إدارة مجموعات البيانات لتدريب أساسيات الكشف هذه باستخدام Ultralytics التي تبسط عملية التعليق التوضيحي والتدريب السحابي.
يوضح Python التالي Python كيفية استخدام YOLO26 لاستخراج السياق البصري (الكائنات ومواقعها) من صورة، وهي الخطوة الأساسية في سير عمل VQA:
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
result.show() # Visualize the detections
من المفيد التمييز بين VQA والمهام المماثلة المتعلقة بالرؤية واللغة لفهم نطاقها الفريد.
يواصل الباحثون تطوير هذا المجال باستخدام معايير قياسية واسعة النطاق مثل مجموعة بيانات VQA، التي تساعد النماذج على التعميم عبر ملايين أزواج الصور والأسئلة . مع تحسن الأجهزة، مما يتيح زمن استدلال أسرع، أصبحت VQA أكثر قابلية للتطبيق في التطبيقات المحمولة والتطبيقات المتطورة في الوقت الفعلي.