Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Кластеризация K-средних

Изучите кластеризацию K-средних, ключевой алгоритм обучения без учителя для группировки данных в кластеры. Изучите его процесс, приложения и сравнения!

Кластеризация K-средних — это базовый алгоритм обучения без учителя, используемый в интеллектуальном анализе данных и машинном обучении (ML). Его основная цель — разделить набор данных на заранее определенное количество отдельных, непересекающихся подгрупп или «кластеров». «K» в названии относится к этому количеству кластеров. Алгоритм работает путем группировки точек данных на основе их сходства, которое часто измеряется евклидовым расстоянием между точками. Каждый кластер представлен своим центром, известным как центроид, который является средним значением всех точек данных в этом кластере. Это мощный, но простой метод обнаружения скрытых закономерностей и структур в немаркированных данных.

Как работает K-Means

Алгоритм K-Means работает итеративно, чтобы найти наилучшее распределение кластеров для всех точек данных. Процесс можно разбить на несколько простых шагов:

  1. Инициализация: Сначала выбирается количество кластеров K. Затем K начальных центроидов случайным образом размещаются в пространстве признаков набора данных.
  2. Шаг присвоения: Каждая точка данных из обучающего набора данных присваивается ближайшему центроиду. Это формирует K начальных кластеров.
  3. Шаг обновления: Центроид каждого кластера пересчитывается путем вычисления среднего значения всех точек данных, отнесенных к нему.
  4. Итерация: Шаги назначения и обновления повторяются до тех пор, пока назначения кластеров больше не изменятся или не будет достигнуто максимальное количество итераций. В этот момент алгоритм сходится, и формируются окончательные кластеры. Вы можете увидеть визуальное объяснение алгоритма K-средних для более интуитивного понимания.

Выбор правильного значения K имеет решающее значение и часто требует знания предметной области или использования таких методов, как метод локтя или коэффициент силуэта. Реализации широко доступны в таких библиотеках, как Scikit-learn.

Применение в реальном мире

K-средних применяется в различных областях благодаря своей простоте и эффективности:

  • Сегментация клиентов: В розничной торговле и маркетинге компании используют K-Means для группировки клиентов в отдельные сегменты на основе истории покупок, демографических данных или поведения. Например, компания может выделить кластер «лояльных клиентов с высокими расходами» и кластер «экономных случайных покупателей». Это позволяет разрабатывать целевые маркетинговые стратегии, как описано в исследованиях по сегментации клиентов с использованием кластеризации.
  • Сжатие изображений: В компьютерном зрении (CV) K-Means используется для квантования цвета, формы уменьшения размерности. Он группирует похожие цвета пикселей в K кластеров, заменяя цвет каждого пикселя центроидным цветом его кластера. Это уменьшает количество цветов в изображении, эффективно сжимая его. Этот метод является основополагающей концепцией в сегментации изображений.
  • Анализ документов: Алгоритм может кластеризовать документы на основе частоты терминов, чтобы идентифицировать темы или группировать похожие статьи, что помогает в организации больших текстовых наборов данных.

K-средних в сравнении со смежными концепциями

Важно отличать K-средние (K-Means) от других алгоритмов машинного обучения:

  • Метод K-ближайших соседей (KNN): Это распространенный источник путаницы. K-средних — это алгоритм кластеризации без учителя, который группирует немаркированные данные. В отличие от него, KNN — это алгоритм классификации или регрессии с учителем, который прогнозирует метку новой точки данных на основе меток ее K-ближайших соседей. K-средних создает группы, а KNN классифицирует по предопределенным группам.
  • Метод опорных векторов (SVM): SVM — это модель обучения с учителем, используемая для классификации, которая находит оптимальную гиперплоскость для разделения классов. K-Means — это обучение без учителя, которое группирует данные на основе сходства без каких-либо предопределенных меток.
  • DBSCAN: В отличие от K-Means, DBSCAN - это алгоритм кластеризации на основе плотности, который может идентифицировать кластеры произвольной формы и устойчив к выбросам. K-Means предполагает, что кластеры имеют сферическую форму, и может сильно зависеть от выбросов.

Хотя K-Means является фундаментальным инструментом для исследования данных, сложные задачи, такие как обнаружение объектов в реальном времени, опираются на более продвинутые модели. Современные детекторы, такие как Ultralytics YOLO, используют сложные методы глубокого обучения для достижения превосходной производительности. Однако концепции кластеризации, такие как группировка якорных боксов, были основополагающими в разработке более ранних детекторов объектов. Управление наборами данных для таких задач можно упростить с помощью платформ, таких как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена