اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.
DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) هي خوارزمية تجميع مستخدمة على نطاق واسع في التعلم الآلي (ML) والتنقيب عن البيانات. وهي تنتمي إلى فئة أساليب التعلّم غير الخاضعة للإشراف، مما يعني أنها تكتشف أنماطًا في البيانات دون تسميات محددة مسبقًا. تتفوق DBSCAN في تجميع نقاط البيانات المتقاربة معًا في مساحة الميزات، وتحدد بفعالية المجموعات ذات الأشكال التعسفية. وتتمثل إحدى نقاط قوته الرئيسية في قدرته على تمييز النقاط المعزولة في المناطق منخفضة الكثافة كقيم متطرفة أو ضوضاء، مما يجعله قويًا بالنسبة لمجموعات البيانات في العالم الحقيقي. على عكس الخوارزميات التي تتطلب تحديد عدد المجموعات مسبقًا، تحدد DBSCAN المجموعات بناءً على كثافة البيانات، مما يوفر مرونة في مهام استكشاف البيانات المختلفة في الذكاء الاصطناعي.
يحدد DBSCAN المجموعات بناءً على مفهوم قابلية الوصول إلى الكثافة. وهي تنظر إلى المجموعات على أنها مناطق عالية الكثافة تفصل بينها مناطق منخفضة الكثافة. يتم التحكم في سلوك الخوارزمية بشكل أساسي من خلال معلمتين:
بناءً على هذه المعلمات، يتم تصنيف نقاط البيانات إلى ثلاثة أنواع:
minPts
جيرانها داخل eps
نصف القطر. تقع هذه النقاط عادةً في الجزء الداخلي من الكتلة.eps
نصف قطر النقطة الأساسية) ولكن ليس لديها minPts
المجاورة نفسها. تقع النقاط الحدودية على حافة التجمعات.تبدأ الخوارزمية باختيار نقطة بيانات عشوائية غير مرئية. تتحقق مما إذا كانت النقطة هي نقطة أساسية من خلال فحص نقطة البيانات eps
-الجوار. إذا كانت نقطة أساسية، يتم تشكيل مجموعة جديدة، وتضيف الخوارزمية بشكل متكرر جميع النقاط التي يمكن الوصول إليها بكثافة (النقاط الأساسية والحدودية في الجوار) إلى هذه المجموعة. إذا كانت النقطة المحددة هي نقطة ضوضاء، يتم تمييزها مؤقتًا على هذا النحو وتنتقل الخوارزمية إلى النقطة التالية غير المرغوب فيها. تستمر هذه العملية حتى تتم زيارة جميع النقاط وتعيينها إلى مجموعة أو تمييزها على أنها ضوضاء. للتعمق أكثر في المنهجية الأصلية، راجع ورقة البحث: "خوارزمية تستند إلى الكثافة لاكتشاف التكتلات في قواعد البيانات المكانية الكبيرة ذات الضوضاء".
تقدم DBSCAN العديد من المزايا:
ومع ذلك، فإن لها قيودًا أيضًا:
eps
و minPts
. قد يكون العثور على المعلمات المثلى أمرًا صعبًا. أدوات مثل تطبيقات عرض scikit-learn التي يمكن ضبطها.eps
-minPts
قد لا تعمل التركيبة بشكل جيد مع جميع المجموعات.وغالبًا ما تتم مقارنة DBSCAN بخوارزميات التجميع الأخرى، ولا سيما خوارزمية التجميع K-means. تشمل الاختلافات الرئيسية ما يلي:
k
) مسبقًا، بينما يحددها DBSCAN تلقائيًا.إن قدرة DBSCAN على العثور على مجموعات كثيفة وعزل القيم المتطرفة تجعلها مناسبة لمختلف التطبيقات:
يركز نظام Ultralytics البيئي في المقام الأول على نماذج التعلم الخاضعة للإ شراف، مثل Ultralytics YOLO للمهام التي تتضمن اكتشاف الأجسام وتصنيف الصور وتجزئة الصور. بينما لا يتم دمج DBSCAN، كونها طريقة غير خاضعة للإشراف، بشكل مباشر في حلقات التدريب الأساسية لنماذج مثل YOLOv8 أو YOLO11، فإن مبادئها ذات صلة في السياق الأوسع للرؤية الحاسوبية وتحليل البيانات. ويُعد فهم كثافة البيانات وتوزيعها أمرًا بالغ الأهمية عند إعداد مجموعات البيانات وتحليلها للتدريب أو عند معالجة مخرجات النموذج بعد ذلك، على سبيل المثال، تجميع الأجسام المكتشفة بناءً على قربها المكاني بعد الاستدلال. توفر منصات مثل Ultralytics HUB أدوات لإدارة مجموعة البيانات وتصورها، والتي يمكن أن تكمل تقنيات تحليل البيانات الاستكشافية حيث يمكن تطبيق خوارزميات التجميع مثل DBSCAN.