اكتشف قوة التجزئة الدلالية - قم بتصنيف كل بكسل في الصور لفهم المشهد بدقة. استكشف التطبيقات والأدوات الآن!
التجزئة الدلالية هي مهمة أساسية في مجال الرؤية الحاسوبية (CV) تتضمن تعيين تسمية فئة محددة لكل بكسل واحد داخل الصورة. وخلافاً لمهام الرؤية الأخرى التي قد تحدد الأجسام أو تصنف الصورة بأكملها، فإن التجزئة الدلالية توفر فهماً كثيفاً على مستوى البكسل لمحتوى المشهد. وهذا يعني أنه لا يكتشف وجود سيارة فحسب، بل يحدد بدقة وحدات البكسل التي تنتمي إلى فئة السيارة، ويميزها عن وحدات البكسل التي تنتمي إلى الطريق أو السماء أو المشاة. ويهدف إلى تقسيم الصورة إلى مناطق ذات مغزى تتوافق مع فئات الكائنات المختلفة، مما يوفر فهماً شاملاً للبيئة المرئية.
الهدف الأساسي للتقسيم الدلالي هو تصنيف كل بكسل في الصورة إلى مجموعة محددة مسبقًا من الفئات. على سبيل المثال، في صورة تحتوي على العديد من السيارات والمشاة والأشجار، يقوم نموذج التجزئة الدلالية بتصنيف جميع وحدات البكسل التي تشكل أي سيارة على أنها "سيارة"، وجميع وحدات البكسل لأي مشاة على أنها "مشاة"، وجميع وحدات البكسل لأي شجرة على أنها "شجرة". يعامل جميع مثيلات نفس فئة الكائن بشكل متطابق.
يعتمد التجزئة الدلالية الحديثة اعتمادًا كبيرًا على التعلّم العميق، وخاصةً الشبكات العصبية التلافيفية (CNNs). وعادةً ما يتم تدريب هذه النماذج باستخدام تقنيات التعلّم تحت الإشراف، مما يتطلب مجموعات بيانات كبيرة مع شروح مفصلة على مستوى البكسل. تتضمن العملية إدخال صورة في الشبكة، والتي تقوم بعد ذلك بإخراج خريطة تجزئة. هذه الخريطة هي في الأساس صورة حيث تتوافق قيمة كل بكسل (غالبًا ما يتم تمثيلها بالألوان) مع تصنيف فئتها المتوقعة، مما يفصل بصريًا بين الفئات المختلفة مثل "طريق" أو "مبنى" أو "شخص" وما إلى ذلك. تُعد جودة تصنيف البيانات أمرًا بالغ الأهمية لتدريب نماذج دقيقة.
من المهم التمييز بين التجزئة الدلالية ومهام الرؤية الحاسوبية ذات الصلة:
يعد الفهم التفصيلي للمشهد الذي يوفره التجزئة الدلالية أمرًا بالغ الأهمية للعديد من التطبيقات الواقعية:
وغالباً ما يستخدم التجزئة الدلالية نماذج التعلّم العميق، وخاصةً البنى المستمدة من شبكات سي إن إن.