تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Vision Language Model (VLM)

استكشف نماذج الرؤية واللغة (VLM) مع Ultralytics. تعلم كيف تربط هذه النماذج بين الرؤية الحاسوبية ونماذج LLMs لأغراض الإجابة عن الأسئلة المرئية (VQA) والكشف عن الكائنات بكلمات غير مقيدة باستخدام Ultralytics YOLO26.

نموذج الرؤية واللغة (VLM) هو نوع من الذكاء الاصطناعي القادر على معالجة وتفسير المعلومات المرئية (الصور أو الفيديو) والمعلومات النصية في وقت واحد. على عكس نماذج الرؤية الحاسوبية التقليدية التي تركز فقط على بيانات البكسل، أو نماذج اللغات الكبيرة (LLMs) التي تفهم النص فقط، تعمل نماذج VLM على سد الفجوة بين هذين النمطين. من خلال التدريب على مجموعات بيانات ضخمة تحتوي على أزواج من الصور والنصوص، تتعلم هذه النماذج ربط الميزات المرئية بالمفاهيم اللغوية، مما يسمح لها بوصف الصور، والإجابة على الأسئلة حول المشاهد المرئية، وحتى تنفيذ الأوامر بناءً على ما "تراه".

Link to this sectionكيف تعمل نماذج الرؤية واللغة#

في جوهرها، تتكون نماذج VLM عادة من مكونين رئيسيين: مشفر الرؤية ومشفر النص. يقوم مشفر الرؤية بمعالجة الصور لاستخراج خرائط الميزات والتمثيلات المرئية، بينما يتعامل مشفر النص مع المدخلات اللغوية. يتم بعد ذلك دمج تدفقات البيانات المميزة هذه باستخدام آليات مثل الانتباه المتبادل لمحاذاة المعلومات المرئية والنصية في مساحة تضمين مشتركة.

اتجهت التطورات الأخيرة في عامي 2024 و2025 نحو بنيات أكثر توحيداً حيث يتعامل هيكل Transformer واحد مع كلا النمطين. على سبيل المثال، توضح نماذج مثل Google PaliGemma 2 مدى فعالية دمج هذه التدفقات في تعزيز الأداء في مهام الاستدلال المعقدة. تسمح هذه المحاذاة للنموذج بفهم السياق، مثل إدراك أن كلمة "تفاحة" تشير إلى فاكهة في صورة متجر بقالة ولكنها تشير إلى شركة تقنية في شعار.

Link to this sectionالتطبيقات الواقعية#

إن القدرة على فهم العالم من خلال البصر واللغة تفتح آفاقاً لتطبيقات متنوعة عبر مختلف الصناعات:

  • الإجابة عن الأسئلة المرئية (VQA): تُستخدم نماذج VLM بكثافة في التشخيص الطبي لمساعدة أطباء الأشعة. قد يسأل الطبيب النظام: "هل يوجد كسر في صورة الأشعة هذه؟"، فيقوم النموذج بتحليل الصورة الطبية لتقديم تقييم أولي، مما يقلل من الأخطاء التشخيصية.
  • البحث الذكي في التجارة الإلكترونية: في بيئات البيع بالتجزئة، تمكّن نماذج VLM المستخدمين من البحث عن المنتجات باستخدام أوصاف لغوية طبيعية مدمجة مع الصور. يمكن للمتسوق تحميل صورة لزي أحد المشاهير وسؤال النظام: "ابحث لي عن فستان بنفس النقشة ولكن باللون الأزرق"، ويستخدم النظام البحث الدلالي لاسترجاع نتائج مطابقة دقيقة.
  • التعليق التلقائي وإمكانية الوصول: تقوم نماذج VLM بإنشاء نص بديل وصفي تلقائياً للصور على الويب، مما يجعل المحتوى الرقمي أكثر سهولة في الوصول للمستخدمين ضعاف البصر الذين يعتمدون على قارئات الشاشة.

Link to this sectionالتمييز بين نماذج VLM والمفاهيم ذات الصلة#

من المفيد تمييز نماذج VLM عن فئات الذكاء الاصطناعي الأخرى لفهم دورها الخاص:

  • VLM مقابل LLM: تقوم نماذج اللغات الكبيرة (مثل إصدارات GPT-4 النصية فقط) بمعالجة البيانات النصية فقط. ورغم قدرتها على كتابة قصص إبداعية أو أكواد برمجية، إلا أنها لا تستطيع "رؤية" الصورة. نموذج VLM يمنح العين عملياً لـ LLM.
  • VLM مقابل كشف الكائنات: تحدد نماذج كشف الكائنات التقليدية، مثل إصدارات YOLO المبكرة، أين توجد الكائنات وما هي الفئة التي تنتمي إليها (مثال: "سيارة: 99%"). يذهب نموذج VLM إلى أبعد من ذلك بفهم العلاقات والسمات، مثل "سيارة رياضية حمراء متوقفة بجانب صنبور إطفاء الحريق."
  • VLM مقابل الذكاء الاصطناعي متعدد الوسائط: الذكاء الاصطناعي متعدد الوسائط هو مصطلح أشمل. فبينما تعتبر جميع نماذج VLM متعددة الوسائط (تجمع بين الرؤية واللغة)، ليست كل النماذج متعددة الوسائط عبارة عن VLM؛ فقد يجمع بعضها بين الصوت والنص (مثل تحويل الكلام إلى نص) أو الفيديو وبيانات المستشعرات دون مكون لغوي.

Link to this sectionالكشف بكلمات غير مقيدة مع YOLO#

تمكّن نماذج VLM الحديثة من الكشف "بكلمات غير مقيدة" (open-vocabulary)، حيث يمكنك اكتشاف الكائنات باستخدام مطالبات نصية حرة بدلاً من فئات محددة مسبقاً. هذه ميزة رئيسية لنماذج مثل Ultralytics YOLO-World، والتي تسمح بتعريفات ديناميكية للفئات دون الحاجة لإعادة التدريب.

يوضح المثال التالي كيفية استخدام حزمة ultralytics لاكتشاف كائنات محددة موصوفة بالنص:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionالتحديات والاتجاهات المستقبلية#

على الرغم من قوتها، تواجه نماذج الرؤية واللغة تحديات كبيرة. إحدى المشكلات الرئيسية هي الهلوسة، حيث يصف النموذج بثقة كائنات أو نصوصاً في صورة غير موجودة بالفعل. يعمل الباحثون بنشاط على تقنيات مثل التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) لتحسين التأريض والدقة.

تحدٍ آخر هو التكلفة الحسابية. يتطلب تدريب هذه النماذج الضخمة موارد GPU كبيرة. ومع ذلك، فإن إصدار بنيات فعالة مثل Ultralytics YOLO26 يساعد في جلب قدرات الرؤية المتقدمة إلى أجهزة الحافة. ومع المضي قدماً، نتوقع أن تلعب نماذج VLM دوراً حاسماً في الوكلاء الروبوتيين، مما يسمح للروبوتات بالتنقل والتعامل مع الكائنات بناءً على تعليمات لفظية معقدة.

بالنسبة للمهتمين بالأسس النظرية، توفر ورقة CLIP الأصلية من OpenAI رؤية ممتازة حول التدريب المسبق للغة والصور التباينية. بالإضافة إلى ذلك، فإن مواكبة أوراق مؤتمر CVPR ضرورية لتتبع التطور السريع لهذه البنيات. لتجربة تدريب نماذج الرؤية الخاصة بك، يمكنك الاستفادة من منصة Ultralytics لإدارة مجموعات البيانات ونشر النماذج بشكل مبسط.

Explore solutions

Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة