Visual Instruction Tuning
اكتشف كيف يُمكّن ضبط التعليمات المرئية نماذج الرؤية اللغوية من اتباع توجيهات البشر. تعلم بناء سير عمل ذكاء اصطناعي متقدم باستخدام Ultralytics YOLO26.
يعد ضبط التعليمات المرئية تقنية تحويلية في تعلم الآلة توسع طرق معالجة اللغات الطبيعية التقليدية لتشمل المجال متعدد الوسائط. من خلال تدريب نموذج الرؤية اللغوية (VLM) على اتباع توجيهات بشرية صريحة بناءً على مدخلات الصور أو الفيديو، يمكن للمطورين إنشاء مساعدين ذكاء اصطناعي يفهمون المحتوى المرئي ويحللونه. على عكس نماذج تصنيف الصور القياسية التي تُخرج فئة محددة مسبقًا، يُمكّن ضبط التعليمات المرئية النماذج من تنفيذ مهام معقدة ومفتوحة النهاية—مثل وصف مشهد، أو قراءة نص داخل صورة، أو الإجابة على أسئلة محددة حول العلاقات المكانية. وهذا يسد الفجوة بين نماذج اللغة الكبيرة (LLMs) المستندة إلى النص وخطوط أنابيب الرؤية الحاسوبية التقليدية.
Link to this sectionفهم المفهوم والفروق#
لفهم ضبط التعليمات المرئية، من المفيد التمييز بينه وبين المفاهيم وثيقة الصلة في نظام الذكاء الاصطناعي البيئي:
- ضبط التعليمات: يشير عادةً إلى مواءمة نماذج اللغة الكبيرة (LLMs) النصية فقط لاتباع نية المستخدم البشري بأمان ودقة. يطبق ضبط التعليمات المرئية نفس المنهجية ولكنه يدمج الصور في التلقين والمخرجات المتوقعة.
- التلقين المرئي: يتضمن عادةً التفاعل مع الذكاء الاصطناعي باستخدام إشارات مرئية—مثل رسم مربع إحاطة، أو وضع نقطة، أو حجب منطقة في صورة—لتوجيه تركيز النموذج. في المقابل، يعتمد ضبط التعليمات المرئية بشكل كبير على أوامر اللغة الطبيعية المقترنة بالبيانات المرئية.
تتضمن عملية التدريب عمومًا الضبط الدقيق لنموذج أساسي متعدد الوسائط مدرب مسبقًا باستخدام مجموعات بيانات واسعة النطاق منسقة كثلاثيات صورة-نص-تعليمات. أظهرت أبحاث arXiv الرائدة حول ضبط التعليمات المرئية، مثل مشروع LLaVA (مساعد اللغة والرؤية الكبير)، أن هذه النماذج يمكنها تحقيق قدرات مذهلة في التعلم بالصفر (zero-shot). اليوم، توظف منظمات الذكاء الاصطناعي الكبرى هذه التقنية لتشغيل نماذج متقدمة، بما في ذلك OpenAI GPT-4o، وAnthropic Claude 3.5 Sonnet، وGoogle DeepMind Gemini.
Link to this sectionالتطبيقات الواقعية#
من خلال مواءمة بنيات التعلم العميق متعدد الوسائط مع نية الإنسان، يفتح ضبط التعليمات المرئية تطبيقات تفاعلية للغاية عبر مختلف الصناعات:
- الذكاء الاصطناعي في تشخيص الرعاية الصحية: يمكن للمهنيين الطبيين استخدام النماذج المضبوطة بالتعليمات لـ الإجابة على الأسئلة المرئية (VQA). قد يقوم أخصائي الأشعة بتلقين النظام بصورة أشعة سينية والتعليمات، "حدد واشرح أي علامات للالتهاب الرئوي في الفص السفلي الأيسر"، مما يسمح للذكاء الاصطناعي بالعمل كمساعد تشخيص تعاوني.
- الذكاء الاصطناعي في مراقبة جودة التصنيع: بدلاً من تدريب نموذج صارم للكشف عن العيوب من الصفر، يمكن للمشغلين توجيه نظام رؤية مثل Microsoft Florence-2 بالقول، "حدد أي خدوش أو انبعاجات مجهرية على هذا الغطاء المعدني المصنوع حديثًا."
Link to this sectionبناء سير عمل الرؤية#
لبناء أنظمة تستفيد من هذه القدرات، يعتمد المطورون غالبًا على نماذج اكتشاف الأشياء قوية لاستخراج السياق الهيكلي من الصور قبل تمرير تلك البيانات إلى نموذج VLM. باستخدام وثائق PyTorch متعددة الوسائط أو نماذج رؤية TensorFlow، يمكن للمطورين إنشاء خطوط أنابيب هجينة.
على سبيل المثال، يمكنك استخدام نموذج Ultralytics YOLO لإدراك المشهد بسرعة وإنشاء تلقين لغوي مستنير لنموذج VLM لاحق:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...قد تكون إدارة مجموعات البيانات المعقدة ومتعددة الوسائط المطلوبة لتطبيقات الجيل التالي هذه صعبة. تبسط منصة Ultralytics هذه العملية من خلال توفير أدوات شاملة لتعليق البيانات، والتدريب السحابي، ونشر النماذج بسلاسة. سواء كنت تقرأ أحدث الأوراق البحثية على مكتبة ACM الرقمية أو أرشيفات IEEE Xplore للرؤية الحاسوبية، فإن التحول نحو أنظمة الرؤية القادرة للغاية والمضبوطة بالتعليمات يمثل طليعة الذكاء الاصطناعي. من خلال إقران إدراك YOLO26 بنماذج الاستنتاج المضبوطة، يمكن للمؤسسات نشر وكلاء ذكاء اصطناعي قويين بشكل لا يصدق.






