Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التوجيه البصري

استكشف المطالبات المرئية لتوجيه نماذج الذكاء الاصطناعي باستخدام النقاط والمربعات. تعرف على كيفية SAM Ultralytics YOLO SAM تقسيم دقيق وتوضيح البيانات بشكل أسرع.

التوجيه البصري هو تقنية ناشئة في مجال الرؤية الحاسوبية حيث يقدم المستخدمون إشارات مكانية أو بصرية — مثل النقاط أو المربعات المحيطة أو الخربشات — لتوجيه تركيز نموذج الذكاء الاصطناعي نحو كائنات أو مناطق محددة داخل الصورة. على عكس هندسة التوجيه التقليدية التي تعتمد بشكل أساسي على الأوصاف النصية، يتيح التوجيه البصري تفاعلًا أكثر دقة وبديهية مع أنظمة الذكاء الاصطناعي (AI). تستفيد هذه الطريقة من قدرات نماذج الأساس الحديثة لأداء مهام مثل التجزئة والكشف دون الحاجة إلى إعادة تدريب مكثفة أو مجموعات بيانات كبيرة مصنفة. من خلال "الإشارة" الفعالة إلى ما يهم، يمكن للمستخدمين تكييف النماذج العامة الغرض مع المهام الجديدة على الفور، وسد الفجوة بين نية الإنسان وإدراك الآلة.

آليات التوجيه البصري

في جوهرها، تعمل المطالبات المرئية عن طريق إدخال المعلومات المكانية مباشرة في خط أنابيب معالجة النموذج. عندما ينقر المستخدم على كائن أو يرسم مربعًا، يتم تحويل هذه المدخلات إلى تضمينات قائمة على الإحداثيات تدمجها الشبكة العصبية مع ميزات الصورة. هذه العملية أساسية للبنى التفاعلية مثل نموذج Segment Anything Model (SAM)، حيث يتنبأ النموذج بالأقنعة بناءً على المطالبات الهندسية.

تتيح مرونة المطالبات المرئية أنواعًا مختلفة من التفاعل:

  • مطالبات النقطة: ينقر المستخدم على بكسل معين للإشارة إلى الكائن محل الاهتمام. ثم يقوم النموذج بتوسيع هذا الاختيار ليشمل حدود الكائن بالكامل.
  • مطالبات المربع: رسم مربع حدودي يوفر تحديدًا تقريبيًا للموقع، مما يشير إلى النموذج segment classify يحتويه هذا المجال.
  • مطالبات الكتابة: يمكن أن تساعد الخطوط المرسومة باليد على كشف الغموض في المشاهد المعقدة حيث تتداخل الأشياء أو يكون لها نسيج متشابه.

تسلط الأبحاث الحديثة التي تم تقديمها في CVPR 2024 الضوء على كيفية قيام التوجيه البصري بتقليل الوقت اللازم لتعليق البيانات بشكل كبير ، حيث يمكن للمعلقين البشريين تصحيح تنبؤات النموذج في الوقت الفعلي بنقرات بسيطة بدلاً من تتبع المضلعات يدويًا.

التنبيه البصري مقابل التنبيه النصي

في حين أن كلا التقنيتين تهدفان إلى توجيه سلوك النموذج، من المهم التمييز بين التوجيه البصري والطرق النصية . يعتمد إنشاء الصور من النصوص أو الكشف الفوري على معالجة اللغة الطبيعية (NLP) لتفسير الأوصاف الدلالية (على سبيل المثال، "ابحث عن السيارة الحمراء"). ومع ذلك، يمكن أن تكون اللغة غامضة أو غير كافية لوصف المواقع المكانية الدقيقة أو الأشكال المجردة.

تحل الإشارات المرئية هذا الغموض من خلال تثبيت التعليمات في مساحة البكسل نفسها. على سبيل المثال، في تحليل الصور الطبية، يكون من الأكثر دقة أن ينقر أخصائي الأشعة على عقدة مشبوهة بدلاً من محاولة وصف إحداثياتها الدقيقة وشكلها غير المنتظم عبر النص. غالبًا ما تجمع سير العمل الأكثر فاعلية بين كلا النهجين — باستخدام النص للتصفية الدلالية والتنبيهات المرئية للدقة المكانية — وهو مفهوم يُعرف باسم التعلم متعدد الوسائط.

تطبيقات واقعية

أدت قابلية التكيف مع التوجيهات المرئية إلى اعتمادها بسرعة في مختلف الصناعات:

  • التشخيص الطبي التفاعلي: يستخدم الأطباء أدوات توجيه بصرية لعزل الأورام أو الأعضاء في فحوصات التصوير بالرنين المغناطيسي. بمجرد النقر على المنطقة المراد فحصها، يمكنهم على الفور إنشاء قياسات حجمية ثلاثية الأبعاد، مما يساعد في الكشفالدقيق عن الأورام وتخطيط العمليات الجراحية.
  • تحرير الصور الذكي: في البرامج الاستهلاكية مثل Adobe Photoshop أو تطبيقات الهواتف المحمولة، تعمل المطالبات المرئية على تشغيل أدوات "الاختيار السحري". يمكن للمستخدمين النقر على شخص أو كائن لإزالة الخلفية أو تطبيق مرشحات محددة ، باستخدام تقنيات تقسيم المثيلات الأساسية دون الحاجة إلى مهارات القناع اليدوي.
  • التلاعب الآلي: في الذكاء الاصطناعي في الروبوتات، يمكن توجيه الروبوتات لالتقاط أشياء معينة من خلال واجهة بصرية. ينقر المشغل على كائن في بث كاميرا الروبوت، مما يوفر موجه بصري يترجمه الروبوت إلى إحداثيات الإمساك، مما يسهل الأتمتة البشرية في المستودعات.

التنفيذ باستخدام Ultralytics

يدعم Ultralytics سير العمل البصري، لا سيما من خلال نماذج مثل FastSAM SAM. تتيح هذه النماذج للمطورين تمرير إحداثيات النقاط أو المربعات برمجياً لاسترداد أقنعة التجزئة.

يوضح المثال التالي كيفية استخدام ultralytics حزمة لتطبيق موجه نقطة على صورة، مع إرشاد النموذج segment الموجود في إحداثيات محددة.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

تعزيز مرونة النموذج

يمثل التوجيه البصري تحولًا نحو الرؤية الحاسوبية "القابلة للتوجيه"، حيث لم تعد النماذج "صناديق سوداء" ثابتة بل أصبحت أدوات تفاعلية. هذه القدرة ضرورية لدورات التعلم النشط، حيث تتحسن النماذج بسرعة من خلال دمج ملاحظات المستخدمين.

بالنسبة للمطورين الذين يسعون إلى دمج هذه القدرات في الإنتاج، توفر Ultralytics أدوات لإدارة مجموعات البيانات ونشر النماذج التي يمكنها التعامل مع المدخلات الديناميكية. مع تقدم الأبحاث، نتوقع أن نرى تكاملاً أكثر إحكامًا بين المطالبات المرئية ونماذج اللغة الكبيرة (LLMs)، مما يتيح للأنظمة القدرة على التفكير في المدخلات المرئية بنفس الطلاقة التي تتعامل بها حاليًا مع النصوص.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن