استكشف نماذج اللغة البصرية (VLM) مع Ultralytics. تعرف على كيفية ربطها بين الرؤية الحاسوبية ونماذج اللغة الكبيرة (LLM) من أجل VQA واكتشاف المفردات المفتوحة باستخدام Ultralytics .
نموذج لغة الرؤية (VLM) هو نوع من الذكاء الاصطناعي يمكنه معالجة وتفسير كل من المعلومات المرئية (الصور أو الفيديو) والمعلومات النصية في وقت واحد. على عكس نماذج الرؤية الحاسوبية التقليدية التي تركز فقط على بيانات البكسل، أو نماذج اللغة الكبيرة (LLMs) التي تفهم النص فقط، فإن نماذج اللغة البصرية (VLMs) تسد الفجوة بين هاتين الطريقتين. من خلال التدريب على مجموعات بيانات ضخمة تحتوي على أزواج من الصور والنصوص، تتعلم هذه النماذج ربط السمات البصرية بالمفاهيم اللغوية، مما يسمح لها بوصف الصور والإجابة على الأسئلة حول المشاهد المرئية وحتى تنفيذ الأوامر بناءً على ما "تراه".
في جوهرها، تتكون VLM عادةً من مكونين رئيسيين: مشفر الرؤية ومشفر النص. يقوم مشفر الرؤية بمعالجة الصور لاستخراج خرائط الميزات والتمثيلات المرئية ، بينما يتعامل مشفر النص مع المدخلات اللغوية. ثم يتم دمج هذه التدفقات المتميزة من البيانات باستخدام آليات مثل الانتباه المتبادل لمواءمة المعلومات المرئية والنصية في مساحة تضمين مشتركة.
أدت التطورات الأخيرة في عامي 2024 و 2025 إلى ظهور بنى أكثر توحيدًا حيث يتعامل محور محول واحد مع كلا النموذجين. على سبيل المثال، توضح نماذج مثل Google 2 مدى فعالية دمج هذه التدفقات في تحسين الأداء في مهام الاستدلال المعقدة. هذا التوافق يسمح للنموذج بفهم السياق، مثل التعرف على أن كلمة "تفاحة" تشير إلى فاكهة في صورة متجر بقالة ولكنها تشير إلى شركة تقنية في شعار.
تفتح القدرة على فهم العالم من خلال البصر واللغة الباب أمام تطبيقات متنوعة في مختلف الصناعات:
من المفيد التمييز بين VLM وفئات الذكاء الاصطناعي الأخرى لفهم دورها المحدد:
تتيح نماذج VLM الحديثة إمكانية الكشف عن "المفردات المفتوحة"، حيث يمكنك detect باستخدام مطالبات نصية حرة بدلاً من الفئات المحددة مسبقًا. هذه ميزة أساسية في نماذج مثل Ultralytics YOLO التي تتيح تعريفات ديناميكية للفئات دون الحاجة إلى إعادة التدريب.
يوضح المثال التالي كيفية استخدام ultralytics حزمة detect
موصوفة بالنص:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
على الرغم من قوتها، تواجه نماذج اللغة البصرية تحديات كبيرة. إحدى المشكلات الرئيسية هي الهلوسة، حيث يصف النموذج بثقة كائنات أو نصوص في صورة لا وجود لها في الواقع. يعمل الباحثون بنشاط على تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) لتحسين التأسيس والدقة.
التحدي الآخر هو التكلفة الحسابية. يتطلب تدريب هذه النماذج الضخمة GPU كبيرة . ومع ذلك، فإن إصدار بنى فعالة مثل Ultralytics يساعد في توفير قدرات رؤية متقدمة للأجهزة المتطورة. مع تقدمنا إلى الأمام، نتوقع أن نرى VLMs تلعب دورًا حاسمًا في الوكلاء الآليين، مما يسمح للروبوتات بالتنقل والتعامل مع الأشياء بناءً على تعليمات لفظية معقدة.
للمهتمين بالأسس النظرية، توفر الورقة البحثية الأصلية CLIP الصادرة عن OpenAI رؤية ممتازة حول التدريب المسبق التبايني للغة والصورة. بالإضافة إلى ذلك، من الضروري متابعة أوراق مؤتمر CVPR لتتبع التطور السريع لهذه البنى. لتجربة تدريب نماذج الرؤية الخاصة بك، يمكنك استخدام Ultralytics لإدارة مجموعات البيانات ونشر النماذج بشكل مبسط.