اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط، والتعامل مع الضوضاء، وتحليل مجموعات البيانات المعقدة في التعلم الآلي.
DBSCAN (التجميع المكاني القائم على الكثافة للتطبيقات مع الضوضاء) هي خوارزمية تعلم غير خاضعة للإشراف شائعة تستخدم لتجميع نقاط البيانات المتقاربة، مع تحديد النقاط الموجودة بمفردها في مناطق منخفضة الكثافة كقيم متطرفة. على عكس طرق التجميع الأخرى، لا يتطلب DBSCAN تحديد عدد المجموعات مسبقًا. إن قدرته على إيجاد مجموعات ذات أشكال اعتباطية ومتانته ضد الضوضاء تجعله أداة قوية لتنقيب البيانات و تحليل البيانات. تم تقديم الخوارزمية لأول مرة في ورقة بحثية عام 1996 بواسطة مارتن إستر وهانز بيتر كريجل ويورج ساندر وشياويي شو، والتي أصبحت عملاً تأسيسيًا في هذا المجال.
يحدد DBSCAN المجموعات بناءً على كثافة نقاط البيانات في مساحة معينة. وهو يعمل على معيارين أساسيين:
eps
): تحدد هذه المعلمة نصف قطر الجوار حول نقطة بيانات. تعتبر جميع النقاط داخل هذه المسافة جيرانًا.بناءً على هذه المعلمات، يصنف DBSCAN كل نقطة بيانات إلى أحد الأنواع الثلاثة:
MinPts
في نطاقها eps
مجاور. هذه النقاط هي الجزء الداخلي من المجموعة.eps
مجاور لنقطة أساسية ولكن ليس لديها عدد كافٍ من الجيران لتكون نقطة أساسية بحد ذاتها. تشكل هذه النقاط حافة المجموعة.تبدأ الخوارزمية بنقطة اعتباطية وتسترجع جوارها. وإذا كانت نقطة أساسية، يتم إنشاء مجموعة جديدة. ثم تقوم الخوارزمية بتوسيع المجموعة بشكل متكرر عن طريق إضافة جميع الجيران الذين يمكن الوصول إليهم مباشرة إليها، وهي عملية تستمر حتى يتعذر إضافة المزيد من النقاط إلى أي مجموعة. يمكنك رؤية تطبيق مرئي في وثائق scikit-learn.
إن قدرة DBSCAN على تحديد الضوضاء واكتشاف المجموعات غير الخطية تجعله ذا قيمة عالية في مختلف المجالات:
يركز نظام Ultralytics البيئي بشكل أساسي على نماذج التعلم الخاضع للإشراف، مثل Ultralytics YOLO لمهام تشمل اكتشاف الكائنات، و تصنيف الصور، و تجزئة المثيلات. في حين أن DBSCAN هي طريقة غير خاضعة للإشراف، إلا أن مبادئها ذات صلة في السياق الأوسع لـ رؤية الحاسوب (CV).
على سبيل المثال، بعد إجراء اكتشاف الكائنات باستخدام نموذج مثل YOLO11 على مقطع فيديو لشارع مزدحم، يمكن تطبيق DBSCAN على الإحداثيات المركزية للمربعات المحيطة المكتشفة. يمكن أن تجمع هذه الخطوة اللاحقة لمعالجة البيانات بين عمليات الكشف عن المشاة الفردية في حشود متميزة، مما يوفر مستوى أعلى من فهم المشهد. يعد فهم توزيع البيانات أمرًا بالغ الأهمية أيضًا عند إعداد مجموعات البيانات للتدريب. يمكن أن يكشف تحليل البيانات الاستكشافي باستخدام DBSCAN عن أنماط أو حالات شاذة في مجموعة البيانات، والتي يمكن إدارتها وتصورها باستخدام منصات مثل Ultralytics HUB.
k
) مسبقًا، بينما تحدد DBSCAN عدد المجموعات تلقائيًا. تعاني K-Means أيضًا من المجموعات غير الكروية وهي حساسة للقيم المتطرفة، لأنها تجبر كل نقطة على الدخول في مجموعة. تتفوق DBSCAN في العثور على مجموعات ذات أشكال عشوائية وتعزل القيم المتطرفة بشكل فعال كضوضاء.