Descubra como o aprendizado não supervisionado usa clustering, redução de dimensionalidade e detecção de anomalias para descobrir padrões ocultos nos dados.
A aprendizagem não supervisionada é um ramo dinâmico da aprendizagem automática (ML) em que os algoritmos analisam e agrupam conjuntos de dados não rotulados. Ao contrário dos métodos supervisionados que requerem "chaves de resposta" ou pares de entrada-saída de entrada-saída, os algoritmos de aprendizagem não supervisionada são deixados a descobrir padrões ocultos, estruturas subjacentes e correlações subjacentes e correlações nos dados por si próprios. Esta capacidade torna-a uma ferramenta essencial no domínio mais vasto da inteligência artificial (IA), particularmente para a análise exploratória de dados, em que as caraterísticas dos dados não são totalmente compreendidas.
A aprendizagem não supervisionada engloba várias metodologias concebidas para extrair conhecimentos a partir de dados brutos. Estas técnicas são frequentemente categorizadas pelos seus objectivos específicos:
A capacidade de processar grandes volumes de dados não rotulados permite que a aprendizagem não supervisionada impulsione a inovação em vários sectores:
Para compreender onde se enquadra a aprendizagem não supervisionada no panorama do ML, é necessário distingui-la de outras abordagens:
Enquanto estruturas como Ultralytics são famosos pelas tarefas de visão supervisionada,
o conceito subjacente de agrupamento de dados é universal. Segue-se um exemplo simples que utiliza o popular
scikit-learn biblioteca para efetuar o agrupamento K-Means, agrupando pontos de dados com base nas suas caraterísticas sem
sem quaisquer rótulos.
import numpy as np
from sklearn.cluster import KMeans
# Create a simple dataset with two distinct groups of data points
# Group 1 is near (1, 2), Group 2 is near (10, 4)
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize K-Means to find 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (No labels are provided here)
kmeans.fit(X)
# The model automatically assigns a label (0 or 1) to each point based on proximity
print(f"Predicted Clusters: {kmeans.labels_}")
# Output might look like: [1 1 1 0 0 0] showing the separation
A aprendizagem não supervisionada é fundamental para o avanço da aprendizagem profunda (DL). Técnicas modernas como Aprendizagem auto-supervisionada-em que o sistema gera as suas próprias etiquetas a partir dos dados, estão a revolucionar domínios como Processamento de linguagem natural (PNL) e a Visão por Computador (CV). medida que o volume de dados globais cresce exponencialmente, a capacidade de aprender com informações não rotuladas torna-se cada vez mais vital para fluxos de trabalho de ciência de dados escaláveis.
Para um mergulho mais profundo nos pormenores técnicos, recursos como o IBM guide to Unsupervised Learning e a documentação de clustering do Scikit-learn fornecem excelente leitura adicional.