Откройте для себя DBSCAN: надежный алгоритм кластеризации для выявления закономерностей, обработки шумов и анализа сложных наборов данных в машинном обучении.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — это популярный алгоритм обучения без учителя, используемый для группировки близко расположенных точек данных, при этом точки, находящиеся в областях с низкой плотностью, отмечаются как выбросы. В отличие от других методов кластеризации, DBSCAN не требует предварительного указания количества кластеров. Его способность находить кластеры произвольной формы и устойчивость к шуму делают его мощным инструментом для интеллектуального анализа данных и аналитики данных. Алгоритм был впервые представлен в статье Мартина Эстера, Ханса-Петера Кригеля, Йорга Сандера и Сяовэя Сюй в 1996 году, которая стала основополагающей работой в этой области.
DBSCAN определяет кластеры на основе плотности точек данных в заданном пространстве. Он работает с двумя ключевыми параметрами:
eps): Этот параметр определяет радиус окрестности вокруг точки данных. Все точки в пределах этого расстояния считаются соседними.На основе этих параметров DBSCAN классифицирует каждую точку данных в один из трех типов:
MinPts внутри его eps окрестность. Эти точки являются внутренней частью кластера.eps окрестность основной точки, но не имеет достаточного количества соседей, чтобы быть основной точкой. Эти точки образуют край кластера.Алгоритм начинается с произвольной точки и извлекает ее окрестность. Если это основная точка, создается новый кластер. Затем алгоритм итеративно расширяет кластер, добавляя к нему все непосредственно достижимые соседние точки, и этот процесс продолжается до тех пор, пока к какому-либо кластеру больше нельзя добавить точки. Вы можете увидеть визуальную реализацию в документации scikit-learn.
Способность DBSCAN выявлять шум и обнаруживать нелинейные кластеры делает его чрезвычайно ценным в различных областях:
Экосистема Ultralytics в основном ориентирована на модели обучения с учителем, такие как Ultralytics YOLO для решения задач, включая обнаружение объектов, классификацию изображений и сегментацию экземпляров. Хотя DBSCAN является методом обучения без учителя, его принципы применимы в более широком контексте компьютерного зрения (CV).
Например, после выполнения обнаружения объектов с помощью такой модели, как YOLO11, на видеозаписи оживленной улицы, DBSCAN можно применить к центральным координатам обнаруженных ограничивающих рамок. Этот этап постобработки может сгруппировать отдельные обнаружения пешеходов в отдельные толпы, обеспечивая более высокий уровень понимания сцены. Понимание распределения данных также имеет решающее значение при подготовке наборов данных для обучения. Разведочный анализ данных с использованием DBSCAN может выявить закономерности или аномалии в наборе данных, которыми можно управлять и визуализировать с помощью таких платформ, как Ultralytics HUB.
k) заранее, в то время как DBSCAN определяет количество кластеров автоматически. K-Means также плохо работает с не сферическими кластерами и чувствителен к выбросам, поскольку принудительно помещает каждую точку в кластер. DBSCAN отлично справляется с поиском кластеров произвольной формы и эффективно изолирует выбросы как шум.