Glosario

Aprendizaje no supervisado

Descubra cómo el aprendizaje no supervisado utiliza la agrupación, la reducción dimensional y la detección de anomalías para descubrir patrones ocultos en los datos.

El aprendizaje no supervisado es una categoría del aprendizaje automático en la que los algoritmos se entrenan con datos que no tienen etiquetas o categorías predefinidas. A diferencia del aprendizaje supervisado, el objetivo no es predecir un resultado conocido a partir de las características de entrada. En su lugar, el sistema intenta aprender por sí mismo la estructura subyacente, los patrones y las relaciones de los datos. Es como darle a un ordenador una gran colección de elementos sin clasificar y pedirle que encuentre agrupaciones naturales o características interesantes sin decirle qué debe buscar. Este enfoque es crucial para explorar conjuntos de datos complejos y descubrir puntos de vista que podrían no ser evidentes de antemano, formando una parte clave de la Inteligencia Artificial (IA) moderna.

Cómo funciona el aprendizaje no supervisado

En el aprendizaje no supervisado, el algoritmo examina los puntos de datos de entrada e intenta identificar similitudes, diferencias o correlaciones entre ellos. No hay respuestas "correctas" ni resultados previstos durante la fase de formación. Los algoritmos deben inferir la estructura inherente presente en los datos. Esto suele implicar la organización de los puntos de datos en grupos(clustering), la reducción de la complejidad de los datos(reducción de la dimensionalidad) o la identificación de puntos de datos inusuales(detección de anomalías). El éxito de los métodos no supervisados suele depender de la capacidad del algoritmo para captar las propiedades intrínsecas del conjunto de datos sin orientación externa.

Técnicas y conceptos clave

El aprendizaje no supervisado engloba varias técnicas:

  • Agrupación: Consiste en agrupar puntos de datos similares en función de determinadas características. El objetivo es crear conglomerados en los que los elementos de un conglomerado sean muy similares y los de conglomerados diferentes sean disímiles. Los algoritmos más comunes son K-Means Clustering y DBSCAN. Resulta útil para tareas como la segmentación de clientes o la organización de grandes colecciones de documentos.
  • Reducción de la dimensionalidad: El objetivo de estas técnicas es reducir el número de variables de entrada (características) en un conjunto de datos conservando la información esencial. Esto simplifica los modelos, reduce el coste computacional y puede ayudar a visualizar los datos. Entre los métodos más conocidos se encuentran el análisis de componentes principales (ACP ) y la incrustación estocástica de vecinos distribuida (t-SNE).
  • Aprendizaje de reglas de asociación: Permite descubrir relaciones interesantes o reglas de asociación entre variables de grandes conjuntos de datos. Un ejemplo clásico es el análisis de la cesta de la compra, que identifica los artículos que se compran juntos con frecuencia. Aquí se suelen utilizar algoritmos como Apriori. Más información sobre minería de reglas de asociación.
  • Detección de anomalías: Esta técnica se centra en identificar puntos de datos que se desvían significativamente de la mayoría de los datos. Se utiliza mucho en la detección de fraudes, la seguridad de redes y la identificación de defectos en la fabricación.
  • Modelos generativos: Algunos modelos no supervisados, como las redes generativas adversariales (GAN) o los autocodificadores, pueden aprender la distribución de datos subyacente para generar nuevas muestras de datos que se parezcan a los datos originales.

Aplicaciones reales

El aprendizaje no supervisado tiene diversas aplicaciones en distintos campos:

Comparación con otros paradigmas de aprendizaje

El aprendizaje no supervisado difiere significativamente de otros enfoques de ML:

El aprendizaje no supervisado es una potente herramienta para explorar datos, descubrir estructuras ocultas y extraer características valiosas, y a menudo constituye un primer paso fundamental en complejas canalizaciones de análisis de datos o complementa otras técnicas de ML. Plataformas como Ultralytics HUB proporcionan entornos en los que pueden desarrollarse y gestionarse diversos modelos de ML, que potencialmente incorporan técnicas no supervisadas para la preparación o el análisis de datos. Frameworks como PyTorch y TensorFlow ofrecen amplias bibliotecas que soportan la implementación de algoritmos no supervisados.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles