Glosario

Aprendizaje autosupervisado

Descubra cómo el aprendizaje autosupervisado aprovecha los datos no etiquetados para un entrenamiento eficiente, transformando la IA en visión por ordenador, PNL y mucho más.

El aprendizaje autosupervisado (SSL) es un método de aprendizaje automático que permite a los modelos aprender a partir de grandes cantidades de datos no etiquetados. A diferencia del aprendizaje supervisado, que depende en gran medida de datos meticulosamente etiquetados, el SSL crea ingeniosamente sus propias señales de supervisión directamente a partir de los propios datos de entrada. Esto lo hace excepcionalmente valioso en campos como la visión por ordenador (CV) y el procesamiento del lenguaje natural (PLN), donde abundan los datos sin etiquetar, pero el coste y el esfuerzo del etiquetado manual(anotación de datos) pueden ser prohibitivos.

Cómo funciona el aprendizaje autosupervisado

El mecanismo central de SSL consiste en diseñar una "tarea pretexto". Se trata de una tarea auxiliar autogenerada en la que el modelo debe predecir ciertas propiedades de los datos que se han ocultado o alterado intencionadamente. Al resolver esta tarea de pretexto, el modelo se ve obligado a aprender estructuras y representaciones subyacentes significativas(incrustaciones) de los datos sin etiquetas proporcionadas por humanos. Esta fase inicial de entrenamiento se conoce como preentrenamiento.

Por ejemplo, en visión por ordenador, una tarea de pretexto podría implicar:

  • Predicción de la posición relativa de parches de imagen barajados.
  • Colorear una imagen en escala de grises.
  • Rellenar las partes que faltan en una imagen (inpainting).
  • Aprendizaje de representaciones mediante el contraste de distintas vistas aumentadas de una misma imagen, técnica utilizada en métodos de aprendizaje contrastivo como SimCLR y MoCo.

En PNL, una tarea de pretexto muy conocida es el modelado de lenguaje enmascarado, utilizado por modelos como BERT. En este caso, el modelo aprende a predecir palabras que se han enmascarado (ocultado) aleatoriamente dentro de las frases.

Tras el preentrenamiento en grandes conjuntos de datos sin etiquetar, el modelo captura representaciones ricas en características. A continuación, este modelo preentrenado puede adaptarse a tareas posteriores específicas -como la detección de objetos, la clasificación de imágenes o el análisis de sentimientos- medianteun proceso denominado ajuste fino. El ajuste fino suele requerir una cantidad mucho menor de datos etiquetados en comparación con el entrenamiento de un modelo desde cero, lo que convierte a SSL en un factor clave para un aprendizaje por transferencia eficaz.

SSL frente a otros paradigmas de aprendizaje

Es crucial diferenciar SSL de los paradigmas de ML relacionados:

  • Aprendizaje supervisado: Se basa totalmente en datos etiquetados, en los que cada entrada se empareja con una salida correcta. SSL, por el contrario, genera sus etiquetas a partir de los propios datos.
  • Aprendizaje no supervisado: Su objetivo es encontrar patrones (como la agrupación) o reducir la dimensionalidad en datos no etiquetados sin tareas de pretexto predefinidas. Aunque el SSL utiliza datos sin etiquetar como el aprendizaje no supervisado, se diferencia en que crea señales de supervisión explícitas mediante tareas de pretexto para guiar el aprendizaje de representaciones.
  • Aprendizaje semisupervisado: Utiliza una combinación de una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar. El preentrenamiento SSL puede ser a menudo un paso preliminar antes del perfeccionamiento semisupervisado.

Aplicaciones reales

SSL ha avanzado significativamente en las capacidades de Inteligencia Artificial (IA):

  1. Avance de los modelos de visión por ordenador: El preentrenamiento SSL permite que modelos como Ultralytics YOLO11 aprendan características visuales sólidas a partir de conjuntos masivos de datos de imágenes sin etiquetar antes de ser afinados para tareas como la detección de objetos en vehículos autónomos o el análisis de imágenes médicas. El uso de pesos preentrenados derivados de SSL suele mejorar el rendimiento y acelerar la convergencia durante el entrenamiento del modelo.
  2. Alimentación de grandes modelos lingüísticos (LLM): Los modelos básicos como GPT-4 y BERT dependen en gran medida de tareas de pretexto SSL (como el modelado de lenguaje enmascarado) durante su fase de preentrenamiento en vastos corpus de texto. Esto les permite comprender la estructura del lenguaje, la gramática y el contexto, lo que potencia aplicaciones que van desde sofisticados chatbots y traducción automática hasta el resumen de textos.

SSL reduce significativamente la dependencia de costosos conjuntos de datos etiquetados, democratizando el desarrollo de potentes modelos de IA. Herramientas como PyTorch y TensorFlow, junto con plataformas como Ultralytics HUB, proporcionan entornos que permiten aprovechar las técnicas SSL para construir y desplegar soluciones de IA de vanguardia.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles