Glosario

Aprendizaje autosupervisado

Descubre cómo el aprendizaje autosupervisado aprovecha los datos no etiquetados para un entrenamiento eficaz, transformando la IA en visión por ordenador, PNL y más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje Autosupervisado (SSL) es un enfoque de aprendizaje automático (AM) que permite a los modelos aprender a partir de grandes cantidades de datos no etiquetados. A diferencia del aprendizaje supervisado, que depende en gran medida de datos meticulosamente etiquetados, el SSL crea ingeniosamente sus propias señales de supervisión directamente a partir de los propios datos de entrada. Esto lo hace excepcionalmente valioso en campos como la visión por ordenador (VC) y el procesamiento del lenguaje natural (PLN), donde abundan los datos sin etiquetar, pero el coste y el esfuerzo del etiquetado manual(anotación de datos) pueden ser prohibitivos.

Cómo funciona el aprendizaje autosupervisado

El mecanismo central de la SSL consiste en diseñar una "tarea pretexto". Se trata de una tarea auxiliar, autogenerada, en la que el modelo debe predecir ciertas propiedades de los datos que se han ocultado o alterado intencionadamente. Al resolver esta tarea de pretexto, el modelo se ve obligado a aprender estructuras y representaciones subyacentes significativas(incrustaciones) de los datos sin etiquetas proporcionadas por humanos. Esta fase inicial de entrenamiento se suele denominar preentrenamiento.

Por ejemplo, en visión por ordenador, una tarea de pretexto podría implicar:

  • Predicción de la posición relativa de parches de imagen barajados.
  • Colorear una imagen en escala de grises.
  • Rellenar las partes que faltan en una imagen (inpainting).
  • Aprender representaciones contrastando diferentes vistas aumentadas de la misma imagen, técnica utilizada en métodos de aprendizaje contrastivo como SimCLR y MoCo.

En PNL, una tarea de pretexto bien conocida es el modelado del lenguaje enmascarado, famoso por modelos como BERT. En este caso, el modelo aprende a predecir palabras que se han enmascarado (ocultado) aleatoriamente dentro de las frases.

Tras el preentrenamiento en grandes conjuntos de datos sin etiquetar, el modelo captura ricas representaciones de características. A continuación, este modelo preentrenado puede adaptarse a tareas posteriores específicas -como la detección de objetos, la clasificación de imágenes o el análisis de sentimientos- medianteun proceso denominado ajuste fino. El ajuste fino suele requerir una cantidad mucho menor de datos etiquetados en comparación con el entrenamiento de un modelo desde cero, lo que convierte a la SSL en un factor clave para un aprendizaje por transferencia eficaz.

SSL frente a otros paradigmas de aprendizaje

Es crucial diferenciar SSL de los paradigmas de ML relacionados:

  • Aprendizaje supervisado: Se basa totalmente en datos etiquetados, en los que cada entrada se empareja con una salida correcta. SSL, por el contrario, genera sus etiquetas a partir de los propios datos.
  • Aprendizaje no supervisado: Pretende encontrar patrones (como la agrupación) o reducir la dimensionalidad en datos no etiquetados sin tareas de pretexto predefinidas. Aunque el SSL utiliza datos no etiquetados como el aprendizaje no supervisado, se diferencia en que crea señales de supervisión explícitas mediante tareas de pretexto para guiar el aprendizaje de la representación.
  • Aprendizaje semisupervisado: Utiliza una combinación de una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar. El preentrenamiento SSL puede ser a menudo un paso preliminar antes del ajuste fino semisupervisado.

Aplicaciones en el mundo real

SSL ha avanzado significativamente en las capacidades de Inteligencia Artificial (IA):

  1. Avance de los modelos de visión por ordenador: El preentrenamiento SSL permite que modelos como Ultralytics YOLO11 aprendan características visuales robustas a partir de conjuntos masivos de datos de imágenes sin etiquetar antes de ser ajustados para tareas como la detección de objetos en vehículos autónomos o el análisis de imágenes médicas. El uso de pesos preentrenados derivados de SSL suele dar lugar a un mejor rendimiento y a una convergencia más rápida durante el entrenamiento del modelo.
  2. Alimentación de grandes modelos lingüísticos (LLM): Los modelos básicos como GPT-4 y BERT dependen en gran medida de las tareas de pretexto SSL (como el modelado lingüístico enmascarado) durante su fase de preentrenamiento en vastos corpus de texto. Esto les permite comprender la estructura del lenguaje, la gramática y el contexto, potenciando aplicaciones que van desde sofisticados chatbots y traducción automática hasta el resumen de textos.

SSL reduce significativamente la dependencia de costosos conjuntos de datos etiquetados, democratizando el desarrollo de potentes modelos de IA. Herramientas como PyTorch y TensorFlowjunto con plataformas como Ultralytics HUB, proporcionan entornos para aprovechar las técnicas SSL para construir y desplegar soluciones de IA de vanguardia.

Leer todo