Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التجزئة الدلالية

اكتشف قوة التجزئة الدلالية - قم classify كل بكسل في الصور لفهم المشهد بدقة. استكشف التطبيقات والأدوات الآن!

التجزئة الدلالية هي تقنية تأسيسية في مجال الرؤية الحاسوبية (CV) التي تتضمن تعيين فئة محددة لكل بكسل فردي في الصورة. على عكس المهام الأبسط التي قد تصنف الصورة بأكملها أو وضع مربع محدد حول كائن ما، فإن التجزئة الدلالية توفر خريطة كاملة للبيكسل للمشهد. هذا المستوى الدقيق من التفاصيل يمكّن الآلات من فهم الحدود والأشكال الدقيقة للأجسام، وتصنيف مناطق مميزة مثل "طريق" أو "شخص" أو "سماء" أو "ورم". من خلال التعامل مع الصورة الصورة على أنها مجموعة من وحدات البكسل المصنفة بدلاً من مجرد مجموع الأجسام، تقدم هذه الطريقة فهماً شاملاً فهم شامل للسياق البصري، وهو أمر ضروري لأنظمة أنظمة الذكاء الاصطناعي المتقدمة التي تتفاعل مع البيئات المعقدة.

الميكانيكا الأساسية للتصنيف على مستوى البكسل

تعتمد عملية التجزئة الدلالية اعتمادًا كبيرًا على نماذج التعلم العميق (DL) ، وتحديداً البنى القائمة على الشبكات العصبية التلافيفية (CNNs). يتم تدريب هذه النماذج على مجموعات بيانات مشروحة كبيرة حيث يقوم خبراء شرح بشريون خبراء وضعوا علامات على كل بكسل. أثناء التدريب، تتعلم الشبكة ربط الميزات منخفضة المستوى مثل القوام والحواف بمفاهيم دلالية عالية المستوى.

يتضمن النمط المعماري الشائع بنية مشفر-مفك تشفير:

  • أداة التشفير: يقوم بتصغير عينات الصورة المدخلة لالتقاط السياق الدلالي وتقليل الأبعاد المكانية.
  • أداة فك التشفير: يقوم برفع عينات الميزات المشفرة إلى دقة الصورة الأصلية لإنشاء خريطة تنبؤ.

معماريات رائدة مثل الشبكات التلافيفية الكاملة (FCN) وضعت الأساس من خلال استبدال الطبقات المتصلة بالكامل بطبقات تلافيفية لإخراج الخرائط المكانية. تصميمات أكثر تخصصًا مثل U-Net، تستخدم تصميمات أكثر تخصصًا مثل شبكة U-Net، وتستخدم وصلات التخطي للحفاظ على التفاصيل الدقيقة، مما يجعلها فعالة للغاية في المهام التي تتطلب دقة عالية.

التمييز بين التجزئة الدلالية والمهام ذات الصلة

لتحديد الأداة المناسبة لمشروع ما، من المهم التمييز بين التجزئة الدلالية ومهام الرؤية الحاسوبية الأخرى مهام الرؤية الحاسوبية الأخرى:

  • اكتشاف الأجسام: يحدد الأجسام الأجسام وتحديد مواقعها باستخدام مربعات مستطيلة الشكل. يجيب على سؤال "أين يوجد " لكنه يتجاهل الشكل الدقيق للكائن.
  • تجزئة المثيل: يشبه التجزئة الدلالية ولكنه يميز بين الحالات الفردية من نفس الفئة. على سبيل المثال, بينما يصنف التجزئة الدلالية جميع بكسلات "السيارة" بنفس اللون، فإن تجزئة المثيل تعين معرفًا فريدًا ل "سيارة 1"، "سيارة 2"، إلخ.
  • تصنيف الصور: تعيين تسمية واحدة للصورة بأكملها (على سبيل المثال، "مشهد الشاطئ") دون تحديد موقع عناصر محددة.

تطبيقات واقعية

أدت القدرة على تحليل المشاهد على مستوى البكسل إلى دفع الابتكار في العديد من الصناعات:

  • المركبات ذاتية القيادة: تستخدم السيارات ذاتية القيادة التجزئة الدلالية لتحديد الأسطح القابلة للقيادة (الطرق) وإشارات المرور والمشاة و والعوائق. تُستخدم مجموعات البيانات مثل Cityscapes على نطاق واسع لتدريب نماذج للتنقل في البيئات الحضرية بأمان.
  • تحليل الصور الطبية: في مجال الرعاية الصحية، الدقة أمر حيوي. تقوم النماذج segment الأعضاء والآفات والأورام في صور الأشعة من التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب أو التصوير المقطعي المحوسب. وهذا يساعد أطباء الأشعة في تحديد حجم الأنسجة وتخطيط العمليات الجراحية.
  • تحليل صور الأقمار الصناعية: يساعد التجزئة الدلالية في تصنيف الغطاء الأرضي وتتبع إزالة الغابات والتخطيط الحضري. منظمات مثل ناسا مثل ناسا، تستخدم هذه التقنيات لمراقبة التغيرات البيئية على على نطاق عالمي.
  • الزراعة الدقيقة: يستخدم المزارعون التجزئة لتمييز المحاصيل عن الأعشاب الضارة، مما يتيح استخدام مبيدات الأعشاب المستهدفة التي تقلل من الاستخدام الكيميائي والتكاليف.

تنفيذ التقسيم الدلالي

الأطر الحديثة مثل PyTorch و TensorFlow الأدوات اللازمة لبناء نماذج التجزئة. ومع ذلك, المكتبات عالية المستوى تبسط العملية بشكل كبير. إن Ultralytics YOLO11 تدعم نماذج مهام التجزئة خارج الصندوق، مما يوفر توازنًا بين السرعة والدقة المناسبة الاستدلال في الوقت الحقيقي.

يوضّح المثال التالي كيفية تحميل نموذج تجزئة YOLO11 المدرّب مسبقًا وإجراء الاستدلال على صورة باستخدام ultralytics حزمة python .

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the segmentation mask results
results[0].show()

بالنسبة للمطورين الذين يتطلعون إلى إنشاء حلول مخصصة، فإن أدوات التعليقات التوضيحية مثل LabelMe أو CVAT ضرورية لإعداد بيانات التدريب. بمجرد التدريب, يمكن نشر هذه النماذج على أجهزة الحافة باستخدام OpenCV أو التنسيقات مثل ONNX للحصول على أداء فعال في بيئات الإنتاج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن