Glosario

Aprendizaje por transferencia

Desbloquea el poder del aprendizaje por transferencia para ahorrar tiempo, aumentar el rendimiento de la IA y abordar nuevas tareas con datos limitados utilizando modelos preentrenados.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje por transferencia es una técnica de aprendizaje automático (AM) en la que un modelo desarrollado para una tarea específica se reutiliza como punto de partida para un modelo en una segunda tarea relacionada. En lugar de construir un modelo desde cero, lo que requiere importantes datos y recursos informáticos, el aprendizaje por transferencia aprovecha los conocimientos (características, patrones y pesos) aprendidos en una tarea de origen para mejorar el aprendizaje en una tarea de destino. Este enfoque es especialmente beneficioso cuando la tarea de destino tiene datos etiquetados limitados, ya que acelera significativamente el proceso de entrenamiento y a menudo conduce a un mejor rendimiento en comparación con el entrenamiento sólo en el conjunto de datos de destino.

Cómo funciona el aprendizaje por transferencia

La idea central del aprendizaje por transferencia es que un modelo entrenado en un conjunto de datos grande y general, como ImageNet para tareas de imagen o un corpus de texto masivo para el Procesamiento del Lenguaje Natural (PLN), aprende características generales que son útiles para muchas otras tareas relacionadas. Por ejemplo, en visión por ordenador (VC), las capas iniciales de una Red Neuronal Convolucional (RNC) pueden aprender a detectar bordes, texturas y formas simples, que son elementos visuales fundamentales aplicables a diversos problemas de reconocimiento de imágenes.

Al aplicar el aprendizaje por transferencia, sueles empezar con un modelo preentrenado. Dependiendo de la similitud entre las tareas de origen y de destino y del tamaño del conjunto de datos de destino, podrías:

  1. Utiliza el modelo preentrenado como extractor de características: Congela los pesos de las capas iniciales (la columna vertebral) y sólo entrena las capas finales de clasificación o detección en el nuevo conjunto de datos. Esto es habitual cuando el conjunto de datos objetivo es pequeño. Un ejemplo es utilizar YOLOv5 congelando las capas.
  2. Afinar el modelo preentrenado: Descongela algunas o todas las capas preentrenadas y sigue entrenándolas en el nuevo conjunto de datos, normalmente con una tasa de aprendizaje más baja. Esto permite que el modelo adapte las características aprendidas más específicamente a los matices de la tarea objetivo. Se trata de una estrategia habitual cuando el conjunto de datos objetivo es mayor. El ajuste fino suele considerarse un tipo específico de aprendizaje por transferencia.

Aprendizaje por transferencia frente a conceptos afines

  • Ajuste fino: Aunque está estrechamente relacionado y a menudo se utiliza indistintamente en algunos contextos, el ajuste fino se refiere específicamente al proceso de descongelar y entrenar más los pesos de un modelo preentrenado en una nueva tarea. Es un método común utilizado dentro de la estrategia más amplia del aprendizaje por transferencia.
  • Entrenamiento desde cero: Esto implica inicializar los pesos del modelo aleatoriamente y entrenar todo el modelo únicamente con el conjunto de datos objetivo. Requiere una gran cantidad de datos y potencia de cálculo, que el aprendizaje por transferencia pretende reducir.
  • Aprendizaje Cero y Aprendizaje Pocos: Estas técnicas pretenden capacitar a los modelos para realizar tareas con muy pocos o ningún ejemplo de las clases objetivo, a menudo aprovechando los conocimientos aprendidos durante el preentrenamiento de formas más complejas que el aprendizaje por transferencia estándar o el ajuste fino. Modelos como CLIP son ejemplos utilizados en tales escenarios.

Aplicaciones en el mundo real

El aprendizaje por transferencia se aplica ampliamente en diversos ámbitos:

  • Visión por ordenador:
  • Procesamiento del Lenguaje Natural (PLN):
    • Análisis de sentimientos: Ajuste fino de grandes modelos lingüísticos como BERT o GPT, que están preentrenados en grandes cantidades de datos de texto, para clasificar el sentimiento de tipos específicos de texto (por ejemplo, reseñas de productos, publicaciones en redes sociales). Hugging Face Transformers proporciona muchos de estos modelos preentrenados.
    • Reconocimiento de Entidades Nombradas (NER): Adaptación de modelos lingüísticos preentrenados para identificar entidades específicas (como nombres, lugares, organizaciones) dentro de textos específicos de un dominio (por ejemplo, documentos legales, historiales médicos).
    • Chatbots: Uso de modelos lingüísticos preentrenados como base para construir agentes conversacionales capaces de comprender y responder a las consultas de los usuarios en dominios específicos.

Herramientas y marcos

Plataformas como Ultralytics HUB simplifican el proceso de aplicación del aprendizaje por transferencia proporcionando modelos preentrenados (como Ultralytics YOLOv8 y YOLO11) y herramientas para facilitar el entrenamiento personalizado en conjuntos de datos específicos del usuario. Frameworks como PyTorch y TensorFlow también ofrecen un amplio soporte y tutoriales para implementar flujos de trabajo de aprendizaje por transferencia. Para una comprensión teórica más profunda, recursos como el resumen de Stanford CS231n sobre aprendizaje por transferencia o encuestas académicas como"A Survey on Deep Transfer Learning" proporcionan valiosas perspectivas.

Leer todo