Откройте для себя DBSCAN: надежный алгоритм кластеризации для выявления закономерностей, обработки шумов и анализа сложных наборов данных в машинном обучении.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) - это широко используемый алгоритм кластеризации в машинном обучении (ML) и добыче данных. Он относится к категории неконтролируемых методов обучения, то есть обнаруживает закономерности в данных без заранее заданных меток. DBSCAN отлично справляется с группировкой точек данных, которые тесно расположены друг к другу в пространстве признаков, эффективно определяя кластеры произвольной формы. Ключевым преимуществом является способность отмечать изолированные точки в областях с низкой плотностью как выбросы или шум, что делает его надежным для реальных наборов данных. В отличие от алгоритмов, требующих предварительного задания количества кластеров, DBSCAN определяет кластеры на основе плотности данных, обеспечивая гибкость при решении различных задач исследования данных в рамках искусственного интеллекта (ИИ).
DBSCAN определяет кластеры на основе концепции плотности достижимости. Он рассматривает кластеры как области с высокой плотностью, разделенные областями с низкой плотностью. Поведение алгоритма в основном контролируется двумя параметрами:
На основе этих параметров точки данных делятся на три типа:
minPts
соседи в пределах eps
радиус. Эти точки обычно расположены во внутренней части кластера.eps
радиус основной точки), но не имеет minPts
соседей. Пограничные точки лежат на границе кластеров.Алгоритм начинает работу с выбора произвольной, не посещенной точки данных. Он проверяет, является ли эта точка основной, исследуя ее eps
-соседство. Если это основная точка, формируется новый кластер, и алгоритм рекурсивно добавляет в этот кластер все достижимые по плотности точки (основные и граничные точки в окрестности). Если выбранная точка является шумовой, она временно помечается как таковая, и алгоритм переходит к следующей непосещенной точке. Этот процесс продолжается до тех пор, пока все точки не будут посещены и отнесены к кластеру или помечены как шум. Для более глубокого погружения в оригинальную методологию обратитесь к исследовательской статье: "Алгоритм обнаружения кластеров в больших пространственных базах данных с шумом, основанный на плотности".
DBSCAN обладает рядом преимуществ:
Однако у него есть и ограничения:
eps
и minPts
. Поиск оптимальных параметров может оказаться непростой задачей. Такие инструменты, как Реализации предложений scikit-learn которые можно настраивать.eps
-minPts
Комбинация может не подойти для всех кластеров.DBSCAN часто сравнивают с другими алгоритмами кластеризации, в частности с кластеризацией K-means. Основные отличия включают:
k
) заранее, в то время как DBSCAN определяет его автоматически.Способность DBSCAN находить плотные группы и изолировать промахи делает ее подходящей для различных приложений:
Экосистема Ultralytics в первую очередь ориентирована на модели контролируемого обучения, такие как Ultralytics YOLO, для решения таких задач, как обнаружение объектов, классификация изображений и сегментация изображений. Хотя DBSCAN, будучи неконтролируемым методом, не интегрирован непосредственно в основные циклы обучения таких моделей, как YOLOv8 или YOLO11, его принципы актуальны в более широком контексте компьютерного зрения (КВ) и анализа данных. Понимание плотности и распределения данных имеет решающее значение при подготовке и анализе наборов данных для обучения или при постобработке результатов моделирования, например, при кластеризации обнаруженных объектов на основе их пространственной близости после вывода. Платформы, подобные Ultralytics HUB, предоставляют инструменты для управления наборами данных и их визуализации, которые могут дополнить методы анализа данных, где могут применяться алгоритмы кластеризации, такие как DBSCAN.