Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Agrupamento K-Means

Aprenda sobre Agrupamento K-Means, um algoritmo chave de aprendizado não supervisionado para agrupar dados em clusters. Explore seu processo, aplicações e comparações!

O agrupamento K-Means é um algoritmo fundamental de aprendizado não supervisionado usado em mineração de dados e aprendizado de máquina (ML). Seu principal objetivo é particionar um conjunto de dados em um número pré-especificado de subgrupos distintos e não sobrepostos, ou "clusters". O "K" em seu nome se refere a este número de clusters. O algoritmo funciona agrupando pontos de dados com base em sua similaridade, onde a similaridade é frequentemente medida pela distância euclidiana entre os pontos. Cada cluster é representado por seu centro, conhecido como centróide, que é a média de todos os pontos de dados dentro desse cluster. É um método poderoso, porém simples, para descobrir padrões e estruturas subjacentes em dados não rotulados.

Como funciona o K-Means

O algoritmo K-Means opera iterativamente para encontrar as melhores atribuições de cluster para todos os pontos de dados. O processo pode ser dividido em algumas etapas simples:

  1. Inicialização: Primeiro, o número de clusters, K, é escolhido. Em seguida, K centroides iniciais são posicionados aleatoriamente dentro do espaço de características do conjunto de dados.
  2. Etapa de Atribuição: Cada ponto de dados dos dados de treino é atribuído ao centroide mais próximo. Isto forma K clusters iniciais.
  3. Passo de Atualização: O centroide de cada cluster é recalculado, calculando a média de todos os pontos de dados atribuídos a ele.
  4. Iteração: As etapas de atribuição e atualização são repetidas até que as atribuições de cluster não mudem mais ou um número máximo de iterações seja alcançado. Neste ponto, o algoritmo convergiu e os clusters finais são formados. Você pode ver uma explicação visual do algoritmo K-Means para uma compreensão mais intuitiva.

Escolher o valor certo para K é crucial e geralmente requer conhecimento do domínio ou o uso de métodos como o método Elbow ou o Silhouette score. As implementações estão amplamente disponíveis em bibliotecas como o Scikit-learn.

Aplicações no Mundo Real

O K-Means é aplicado em vários domínios devido à sua simplicidade e eficiência:

  • Segmentação de Clientes: No varejo e no marketing, as empresas usam o K-Means para agrupar clientes em segmentos distintos com base no histórico de compras, dados demográficos ou comportamento. Por exemplo, uma empresa pode identificar um cluster de "leais de alto gasto" e um cluster de "compradores ocasionais com consciência de orçamento". Isso permite estratégias de marketing direcionadas, conforme descrito em estudos sobre segmentação de clientes usando clustering.
  • Compressão de Imagem: Em visão computacional (VC), o K-Means é usado para quantização de cores, uma forma de redução de dimensionalidade. Ele agrupa cores de pixels semelhantes em K clusters, substituindo a cor de cada pixel pela cor do centróide de seu cluster. Isso reduz o número de cores em uma imagem, comprimindo-a efetivamente. Esta técnica é um conceito fundamental na segmentação de imagens.
  • Análise de Documentos: O algoritmo pode agrupar documentos com base em suas frequências de termos para identificar tópicos ou agrupar artigos semelhantes, o que auxilia na organização de grandes conjuntos de dados de texto.

K-Means Vs. Conceitos Relacionados

É importante distinguir o K-Means de outros algoritmos de machine learning:

  • K-Nearest Neighbors (KNN): Este é um ponto comum de confusão. K-Means é um algoritmo de agrupamento não supervisionado que agrupa dados não rotulados. Em contraste, KNN é um algoritmo de classificação ou regressão supervisionado que prevê o rótulo de um novo ponto de dados com base nos rótulos de seus K vizinhos mais próximos. K-Means cria grupos, enquanto KNN classifica em grupos predefinidos.
  • Máquina de Vetores de Suporte (SVM): SVM é um modelo de aprendizado supervisionado usado para classificação que encontra um hiperplano ideal para separar classes. K-Means não é supervisionado e agrupa dados com base na similaridade, sem rótulos predefinidos.
  • DBSCAN: Ao contrário do K-Means, o DBSCAN é um algoritmo de agrupamento baseado em densidade que pode identificar clusters de formato arbitrário e é robusto a outliers. O K-Means assume que os clusters são esféricos e pode ser fortemente influenciado por outliers.

Embora o K-Means seja uma ferramenta fundamental para a exploração de dados, tarefas complexas como a detecção de objetos em tempo real dependem de modelos mais avançados. Detectores modernos como o Ultralytics YOLO usam técnicas sofisticadas de aprendizado profundo para um desempenho superior. No entanto, conceitos de clustering, como o agrupamento de anchor boxes, foram fundamentais no desenvolvimento dos primeiros detectores de objetos. O gerenciamento de conjuntos de dados para essas tarefas pode ser simplificado usando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência