Visual Prompting
استكشف التلميحات المرئية لتوجيه نماذج الذكاء الاصطناعي بالنقاط والمربعات. تعرّف على كيفية تمكين Ultralytics YOLO وSAM من التجزئة الدقيقة وتعليق البيانات بشكل أسرع.
التوجيه المرئي هو تقنية ناشئة في مجال رؤية الكمبيوتر، حيث يقدم المستخدمون إشارات مكانية أو مرئية - مثل النقاط، أو مربعات الإحاطة (bounding boxes)، أو الخطوط العشوائية - لتوجيه تركيز نموذج AI نحو كائنات أو مناطق محددة داخل الصورة. على عكس هندسة التوجيه التقليدية التي تعتمد بشكل أساسي على الأوصاف النصية، يسمح التوجيه المرئي بتفاعل أكثر دقة وبديهية مع أنظمة الذكاء الاصطناعي (AI). تستفيد هذه الطريقة من قدرات النماذج التأسيسية الحديثة لأداء مهام مثل التجزئة والكشف دون الحاجة إلى إعادة تدريب مكثفة أو مجموعات بيانات كبيرة مصنفة. ومن خلال "الإشارة" بفعالية إلى ما يهم، يمكن للمستخدمين تكييف النماذج العامة مع مهام جديدة بشكل فوري، مما يسد الفجوة بين القصد البشري وإدراك الآلة.
Link to this sectionآليات التوجيه المرئي#
في جوهره، يعمل التوجيه المرئي عن طريق حقن المعلومات المكانية مباشرة في مسار معالجة النموذج. عندما ينقر المستخدم على كائن أو يرسم مربعاً، يتم تحويل هذه المدخلات إلى تضمينات (embeddings) تعتمد على الإحداثيات، والتي تدمجها الشبكة العصبية مع ميزات الصورة. هذه العملية مركزية للهياكل التفاعلية مثل Segment Anything Model (SAM)، حيث يتنبأ النموذج بالأقنعة بناءً على الموجهات الهندسية.
تسمح مرونة التوجيه المرئي بأنواع تفاعل متنوعة:
- موجهات النقاط: ينقر المستخدم على بكسل محدد للإشارة إلى الكائن محل الاهتمام. ثم يقوم النموذج بتوسيع هذا التحديد ليشمل حدود الكائن بالكامل.
- موجهات المربعات: يوفر رسم مربع إحاطة تحديداً تقريبياً للموقع، مما يشير للنموذج بتجزئة أو تصنيف كل ما يحتويه هذا النطاق.
- موجهات الخطوط العشوائية: يمكن للخطوط المرسومة يدوياً فوق كائن أن تساعد في توضيح المشاهد المعقدة حيث تتداخل الكائنات أو تتشابه في قوامها.
تسلط الأبحاث الأخيرة المقدمة في CVPR 2024 الضوء على كيفية تقليل التوجيه المرئي بشكل كبير للوقت المطلوب لـ تعريف البيانات، حيث يمكن للمصنفين البشريين تصحيح تنبؤات النموذج في الوقت الفعلي بنقرات بسيطة بدلاً من تتبع المضلعات يدوياً.
Link to this sectionالتوجيه المرئي مقابل التوجيه النصي#
بينما تهدف كلتا التقنيتين إلى توجيه سلوك النموذج، من المهم التمييز بين التوجيه المرئي والأساليب المعتمدة على النصوص. يعتمد توليد النص إلى صورة أو الكشف بالصفر من اللقطات (zero-shot) على معالجة اللغات الطبيعية (NLP) لتفسير الأوصاف الدلالية (مثل "ابحث عن السيارة الحمراء"). ومع ذلك، يمكن أن تكون اللغة غامضة أو غير كافية لوصف المواقع المكانية الدقيقة أو الأشكال المجردة.
يعالج التوجيه المرئي هذا الغموض من خلال تأطير التعليمات في مساحة البكسل نفسها. على سبيل المثال، في تحليل الصور الطبية، يعد نقر اختصاصي الأشعة على عقيدة مشبوهة أكثر دقة بكثير من محاولة وصف إحداثياتها الدقيقة وشكلها غير المنتظم عبر النص. غالباً ما تجمع أقوى سير العمل بين كلا النهجين - استخدام النص للتصفية الدلالية والموجهات المرئية للدقة المكانية - وهو مفهوم يعرف بـ التعلم متعدد الوسائط.
Link to this sectionتطبيقات العالم الحقيقي#
أدت قدرة التوجيه المرئي على التكيف إلى تبنيه السريع عبر صناعات متنوعة:
- التشخيص الطبي التفاعلي: يستخدم الأطباء أدوات التوجيه المرئي لعزل الأورام أو الأعضاء في مسوحات الرنين المغناطيسي. بمجرد النقر على منطقة الاهتمام، يمكنهم إنشاء قياسات حجمية ثلاثية الأبعاد فوراً، مما يساعد في دقة كشف الأورام والتخطيط الجراحي.
- تحرير الصور الذكي: في برامج المستهلكين مثل Adobe Photoshop أو تطبيقات الهاتف المحمول، تشغل تقنيات التوجيه المرئي أدوات "التحديد السحري". يمكن للمستخدمين النقر على شخص أو كائن لإزالة الخلفية أو تطبيق فلاتر مستهدفة، مستفيدين من تقنيات تجزئة الكائنات الأساسية دون الحاجة إلى مهارات القناع اليدوي.
- التحكم الروبوتي: في الذكاء الاصطناعي في الروبوتات، يمكن توجيه الروبوتات لالتقاط عناصر محددة من خلال واجهة مرئية. ينقر المشغل على كائن في بث كاميرا الروبوت، مما يوفر توجيهاً مرئياً يترجمه الروبوت إلى إحداثيات التقاط، مما يسهل الأتمتة البشرية في الحلقة في المستودعات.
Link to this sectionالتنفيذ باستخدام Ultralytics#
يدعم نظام Ultralytics سير عمل التوجيه المرئي، لا سيما من خلال نماذج مثل FastSAM و SAM. تسمح هذه النماذج للمطورين بتمرير إحداثيات النقاط أو المربعات برمجياً لاسترداد أقنعة التجزئة.
يوضح المثال التالي كيفية استخدام حزمة ultralytics لتطبيق موجه نقطي على صورة، مما يوجه النموذج لتجزئة الكائن الموجود في إحداثيات محددة.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()Link to this sectionتعزيز مرونة النموذج#
يمثل التوجيه المرئي تحولاً نحو رؤية الكمبيوتر "القابلة للتوجيه"، حيث لم تعد النماذج "صناديق سوداء" ثابتة بل أدوات تفاعلية. هذه القدرة ضرورية لحلقات التعلم النشط، حيث تتحسن النماذج بسرعة من خلال دمج ملاحظات المستخدم.
بالنسبة للمطورين الذين يتطلعون إلى دمج هذه القدرات في الإنتاج، توفر منصة Ultralytics أدوات لإدارة مجموعات البيانات ونشر النماذج التي يمكنها التعامل مع المدخلات الديناميكية. مع تقدم الأبحاث، نتوقع رؤية تكامل أكثر إحكاماً بين الموجهات المرئية ونماذج اللغة الكبيرة (LLMs)، مما يمكن الأنظمة من الاستدلال حول المدخلات المرئية بنفس الطلاقة التي تتعامل بها حالياً مع النصوص.






