Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نموذج اللغة البصرية (VLM)

استكشف نماذج اللغة البصرية (VLM) مع Ultralytics. تعرف على كيفية ربطها بين الرؤية الحاسوبية ونماذج اللغة الكبيرة (LLM) من أجل VQA واكتشاف المفردات المفتوحة باستخدام Ultralytics .

نموذج لغة الرؤية (VLM) هو نوع من الذكاء الاصطناعي يمكنه معالجة وتفسير كل من المعلومات المرئية (الصور أو الفيديو) والمعلومات النصية في وقت واحد. على عكس نماذج الرؤية الحاسوبية التقليدية التي تركز فقط على بيانات البكسل، أو نماذج اللغة الكبيرة (LLMs) التي تفهم النص فقط، فإن نماذج اللغة البصرية (VLMs) تسد الفجوة بين هاتين الطريقتين. من خلال التدريب على مجموعات بيانات ضخمة تحتوي على أزواج من الصور والنصوص، تتعلم هذه النماذج ربط السمات البصرية بالمفاهيم اللغوية، مما يسمح لها بوصف الصور والإجابة على الأسئلة حول المشاهد المرئية وحتى تنفيذ الأوامر بناءً على ما "تراه".

كيف تعمل نماذج لغة الرؤية

في جوهرها، تتكون VLM عادةً من مكونين رئيسيين: مشفر الرؤية ومشفر النص. يقوم مشفر الرؤية بمعالجة الصور لاستخراج خرائط الميزات والتمثيلات المرئية ، بينما يتعامل مشفر النص مع المدخلات اللغوية. ثم يتم دمج هذه التدفقات المتميزة من البيانات باستخدام آليات مثل الانتباه المتبادل لمواءمة المعلومات المرئية والنصية في مساحة تضمين مشتركة.

أدت التطورات الأخيرة في عامي 2024 و 2025 إلى ظهور بنى أكثر توحيدًا حيث يتعامل محور محول واحد مع كلا النموذجين. على سبيل المثال، توضح نماذج مثل Google 2 مدى فعالية دمج هذه التدفقات في تحسين الأداء في مهام الاستدلال المعقدة. هذا التوافق يسمح للنموذج بفهم السياق، مثل التعرف على أن كلمة "تفاحة" تشير إلى فاكهة في صورة متجر بقالة ولكنها تشير إلى شركة تقنية في شعار.

تطبيقات واقعية

تفتح القدرة على فهم العالم من خلال البصر واللغة الباب أمام تطبيقات متنوعة في مختلف الصناعات:

  • الإجابة على الأسئلة البصرية (VQA): تُستخدم نماذج اللغة المرئية (VLMs) بكثرة في تشخيص الرعاية الصحية لمساعدة أطباء الأشعة. قد يسأل الطبيب النظام: "هل هناك كسر في هذه الصورة الشعاعية؟" ويقوم النموذج بتحليل الصورة الطبية لتقديم تقييم أولي، مما يقلل من أخطاء التشخيص.
  • البحث الذكي في التجارة الإلكترونية: في بيئات البيع بالتجزئة، تتيح VLM للمستخدمين البحث عن المنتجات باستخدام أوصاف اللغة الطبيعية جنبًا إلى جنب مع الصور. يمكن للمتسوق تحميل صورة لملابس أحد المشاهير والسؤال: "ابحث لي عن فستان بنفس هذا النمط ولكن باللون الأزرق"، ويستخدم النظام البحث الدلالي لاسترداد النتائج المطابقة بدقة.
  • التسميات التوضيحية الآلية وإمكانية الوصول: تقوم VLM تلقائيًا بإنشاء نص بديل وصفي للصور على الويب، مما يجعل المحتوى الرقمي أكثر سهولة في الوصول إليه للمستخدمين ذوي الإعاقة البصرية الذين يعتمدون على قارئات الشاشة.

التمييز بين VLM والمفاهيم ذات الصلة

من المفيد التمييز بين VLM وفئات الذكاء الاصطناعي الأخرى لفهم دورها المحدد:

  • VLM مقابل LLM: يعالج نموذج اللغة الكبير (مثل GPT-4 الإصدارات النصية فقط) البيانات النصية فقط. على الرغم من أنه يمكنه إنشاء قصص أو أكواد إبداعية، إلا أنه لا يمكنه "رؤية" الصور. يمنح VLM فعليًا LLM القدرة على الرؤية.
  • VLM مقابل الكشف عن الكائنات: تعمل نماذج الكشف عن الكائنات التقليدية ، مثل الإصدارات المبكرة YOLO ، على تحديد مكان الكائنات والفئة التي تنتمي إليها (على سبيل المثال، "سيارة: 99٪"). تذهب VLM إلى أبعد من ذلك من خلال فهم العلاقات والسمات، مثل "سيارة رياضية حمراء متوقفة بجوار صنبور إطفاء الحريق".
  • VLM مقابل الذكاء الاصطناعي متعدد الوسائط: الذكاء الاصطناعي متعدد الوسائط هو مصطلح شامل أوسع نطاقًا. في حين أن جميع VLMs متعددة الوسائط (تجمع بين الرؤية واللغة)، إلا أن جميع النماذج متعددة الوسائط ليست VLMs؛ فقد تجمع بعضها بين الصوت والنص (مثل تحويل الكلام إلى نص) أو الفيديو وبيانات المستشعرات دون مكون لغوي.

الكشف عن المفردات المفتوحة باستخدام YOLO

تتيح نماذج VLM الحديثة إمكانية الكشف عن "المفردات المفتوحة"، حيث يمكنك detect باستخدام مطالبات نصية حرة بدلاً من الفئات المحددة مسبقًا. هذه ميزة أساسية في نماذج مثل Ultralytics YOLO التي تتيح تعريفات ديناميكية للفئات دون الحاجة إلى إعادة التدريب.

يوضح المثال التالي كيفية استخدام ultralytics حزمة detect موصوفة بالنص:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

التحديات والاتجاهات المستقبلية

على الرغم من قوتها، تواجه نماذج اللغة البصرية تحديات كبيرة. إحدى المشكلات الرئيسية هي الهلوسة، حيث يصف النموذج بثقة كائنات أو نصوص في صورة لا وجود لها في الواقع. يعمل الباحثون بنشاط على تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) لتحسين التأسيس والدقة.

التحدي الآخر هو التكلفة الحسابية. يتطلب تدريب هذه النماذج الضخمة GPU كبيرة . ومع ذلك، فإن إصدار بنى فعالة مثل Ultralytics يساعد في توفير قدرات رؤية متقدمة للأجهزة المتطورة. مع تقدمنا إلى الأمام، نتوقع أن نرى VLMs تلعب دورًا حاسمًا في الوكلاء الآليين، مما يسمح للروبوتات بالتنقل والتعامل مع الأشياء بناءً على تعليمات لفظية معقدة.

للمهتمين بالأسس النظرية، توفر الورقة البحثية الأصلية CLIP الصادرة عن OpenAI رؤية ممتازة حول التدريب المسبق التبايني للغة والصورة. بالإضافة إلى ذلك، من الضروري متابعة أوراق مؤتمر CVPR لتتبع التطور السريع لهذه البنى. لتجربة تدريب نماذج الرؤية الخاصة بك، يمكنك استخدام Ultralytics لإدارة مجموعات البيانات ونشر النماذج بشكل مبسط.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن