Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

ضبط التعليم المرئي

اكتشف كيف يتيح ضبط التعليمات المرئية لنماذج اللغة البصرية اتباع التوجيهات البشرية. تعلم كيفية إنشاء سير عمل متقدم للذكاء الاصطناعي باستخدام Ultralytics .

يُعد «ضبط التعليمات المرئية» تقنية ثورية في مجال التعلم الآلي توسع نطاق أساليب معالجة اللغة الطبيعية التقليدية لتشمل المجال متعدد الوسائط. ومن خلال تدريب نموذج اللغة البصرية (VLM) على اتباع التوجيهات البشرية الصريحة استنادًا إلى مدخلات الصور أو مقاطع الفيديو، يمكن للمطورين إنشاء مساعدين يعملون بالذكاء الاصطناعي قادرين على فهم المحتوى المرئي والتفكير فيه. على عكس نماذج تصنيف الصور القياسية التي تنتج فئة محددة مسبقًا، يتيح ضبط التعليمات المرئية للنماذج تنفيذ مهام معقدة ومفتوحة النهاية — مثل وصف مشهد ما، أو قراءة نص داخل صورة، أو الإجابة على أسئلة محددة حول العلاقات المكانية. وهذا يسد الفجوة بين نماذج اللغة الكبيرة (LLMs) القائمة على النص و مسارات الرؤية الحاسوبية التقليدية.

فهم المفهوم والفروق

لفهم مفهوم «ضبط التعليمات المرئية»، من المفيد تمييزه عن المفاهيم الوثيقة الصلة به في مجال الذكاء الاصطناعي:

  • ضبط التعليمات: يشير عادةً إلى مواءمة نماذج اللغة الكبيرة (LLMs) التي تعتمد على النص فقط بحيث تتبع نوايا الإنسان بأمان ودقة. ويطبق ضبط التعليمات المرئية هذه المنهجية نفسها، لكنه يدمج الصور في المطالبة وفي الناتج المتوقع.
  • التوجيه البصري: عادةً ما ينطوي على التفاعل مع الذكاء الاصطناعي باستخدام إشارات بصرية — مثل رسم مربع محيط، أو تحديد نقطة، أو إخفاء منطقة معينة في الصورة — لتوجيه تركيز النموذج. وعلى النقيض من ذلك، يعتمد ضبط التعليمات البصرية بشكل كبير على الأوامر الصادرة باللغة الطبيعية المقترنة بالبيانات البصرية.

تتضمن عملية التدريب عمومًا ضبط نموذج أساسي متعدد الوسائط تم تدريبه مسبقًا باستخدام مجموعات بيانات واسعة النطاق مُصنَّفة على شكل ثلاثيات تتألف من صورة ونص وتعليمات. أظهرت الأبحاث الرائدة في arXiv حول ضبط التعليمات المرئية، مثل مشروع LLaVA (مساعد اللغة والرؤية الكبير) ، أن هذه النماذج يمكنها تحقيق قدرات "صفر طلقة" (zero-shot) ملحوظة. اليوم، تستخدم مؤسسات الذكاء الاصطناعي الكبرى هذه التقنية لتشغيل نماذج متقدمة، بما في ذلك OpenAI GPT-4o، Anthropic 3.5 Sonnet، و Google Gemini.

تطبيقات واقعية

من خلال مواءمة بنى التعلم العميق متعددة الوسائط مع النوايا البشرية، يفتح ضبط التعليمات المرئية الباب أمام تطبيقات تفاعلية للغاية في مختلف القطاعات:

إنشاء مسارات عمل Vision

لبناء أنظمة تستفيد من هذه القدرات، غالبًا ما يعتمد المطورون على نماذج قوية لاكتشاف الكائنات لاستخراج السياق الهيكلي من الصور قبل تمرير تلك البيانات إلى نموذج التعلم المرئي (VLM). وباستخدام وثائقPyTorch أو نماذجTensorFlow ، يمكن للمطورين إنشاء مسارات معالجة هجينة.

على سبيل المثال، يمكنك استخدامYOLO Ultralytics لفهم المشهد بسرعة وإنشاء موجه لغوي مدروس لنظام VLM في المراحل اللاحقة:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

قد تشكل إدارة مجموعات البيانات المعقدة والمتعددة الوسائط المطلوبة لتطبيقات الجيل التالي هذه تحديًا. تعمل Ultralytics على تبسيط هذه العملية من خلال توفير أدوات شاملة لتعليق مجموعات البيانات، والتدريب السحابي، ونشر النماذج بسلاسة. سواء كنت تقرأ أوراقًا بحثية متطورة في المكتبة الرقمية لـ ACM أو أرشيفات الرؤية الحاسوبية لـ IEEE Xplore، فإن التحول نحو أنظمة الرؤية المضبوطة حسب التعليمات وذات القدرات العالية يمثل أحدث ما توصلت إليه الذكاء الاصطناعي. من خلال الجمع بين إدراك YOLO26 ونماذج الاستدلال المضبوطة، يمكن للمؤسسات نشر وكلاء ذكاء اصطناعي أقوياء بشكل لا يصدق.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة