Glosario

Aprendizaje por transferencia

Libere el poder del aprendizaje por transferencia para ahorrar tiempo, aumentar el rendimiento de la IA y abordar nuevas tareas con datos limitados utilizando modelos preentrenados.

El aprendizaje por transferencia es una técnica de aprendizaje automático en la que un modelo desarrollado para una tarea específica se reutiliza como punto de partida para un modelo en una segunda tarea relacionada. En lugar de construir un modelo desde cero, lo que requiere una gran cantidad de datos y recursos informáticos, el aprendizaje por transferencia aprovecha los conocimientos (características, patrones y pesos) aprendidos en una tarea de origen para mejorar el aprendizaje en una tarea de destino. Este enfoque es especialmente beneficioso cuando la tarea de destino tiene pocos datos etiquetados, ya que acelera significativamente el proceso de formación y, a menudo, mejora el rendimiento en comparación con la formación sólo en el conjunto de datos de destino.

Cómo funciona el aprendizaje por transferencia

La idea central que subyace al aprendizaje por transferencia es que un modelo entrenado en un conjunto de datos amplio y general, como ImageNet para tareas de imagen o un corpus de texto masivo para el Procesamiento del Lenguaje Natural (PLN), aprende características generales que son útiles para muchas otras tareas relacionadas. Por ejemplo, en visión por ordenador (CV), las capas iniciales de una red neuronal convolucional (CNN ) pueden aprender a detectar bordes, texturas y formas simples, que son elementos visuales fundamentales aplicables a diversos problemas de reconocimiento de imágenes.

Cuando se aplica el aprendizaje por transferencia, se suele empezar con un modelo preentrenado. Dependiendo de la similitud entre las tareas de origen y de destino y del tamaño del conjunto de datos de destino, es posible:

  1. Utilice el modelo preentrenado como extractor de características: Congelar los pesos de las capas iniciales (la columna vertebral) y sólo entrenar las capas finales de clasificación o detección en el nuevo conjunto de datos. Esto es habitual cuando el conjunto de datos de destino es pequeño. Un ejemplo es el uso de YOLOv5 mediante la congelación de capas.
  2. Ajuste fino del modelo preentrenado: Descongele algunas o todas las capas preentrenadas y continúe entrenándolas en el nuevo conjunto de datos, normalmente con una tasa de aprendizaje más baja. Esto permite al modelo adaptar las características aprendidas más específicamente a los matices de la tarea de destino. Se trata de una estrategia habitual cuando el conjunto de datos objetivo es mayor. El ajuste fino suele considerarse un tipo específico de aprendizaje por transferencia.

Aprendizaje por transferencia frente a conceptos afines

  • Ajuste fino: Aunque está estrechamente relacionado y a menudo se utiliza indistintamente en algunos contextos, el ajuste fino se refiere específicamente al proceso de descongelar y seguir entrenando los pesos de un modelo preentrenado en una nueva tarea. Es un método habitual dentro de la estrategia más amplia del aprendizaje por transferencia.
  • Entrenamiento desde cero: Consiste en inicializar los pesos del modelo de forma aleatoria y entrenar todo el modelo únicamente con el conjunto de datos de destino. Requiere una gran cantidad de datos y potencia de cálculo, que el aprendizaje por transferencia pretende reducir.
  • Aprendizaje cero y aprendizaje de pocos ejemplos: El objetivo de estas técnicas es capacitar a los modelos para realizar tareas con muy pocos o ningún ejemplo de las clases objetivo, a menudo aprovechando los conocimientos aprendidos durante el preentrenamiento de formas más complejas que el aprendizaje por transferencia estándar o el ajuste fino. Modelos como CLIP son ejemplos de uso en este tipo de situaciones.

Aplicaciones reales

El aprendizaje por transferencia se aplica ampliamente en diversos ámbitos:

  • Visión por ordenador:
  • Procesamiento del lenguaje natural (PLN):
    • Análisis de sentimientos: Puesta a punto de grandes modelos lingüísticos como BERT o GPT, preentrenados en grandes cantidades de datos de texto, para clasificar el sentimiento de tipos específicos de texto (por ejemplo, reseñas de productos, publicaciones en redes sociales). Hugging Face Transformers ofrece muchos de estos modelos preentrenados.
    • Reconocimiento de entidades con nombre (NER): Adaptación de modelos lingüísticos preentrenados para identificar entidades específicas (como nombres, ubicaciones, organizaciones) en textos de dominios concretos (por ejemplo, documentos jurídicos, historiales médicos).
    • Chatbots: Uso de modelos lingüísticos preentrenados como base para construir agentes conversacionales capaces de comprender y responder a las consultas de los usuarios en dominios específicos.

Herramientas y marcos

Plataformas como Ultralytics HUB simplifican el proceso de aplicación del aprendizaje por transferencia proporcionando modelos preentrenados (como Ultralytics YOLOv8 y YOLO11) y herramientas para facilitar el entrenamiento personalizado en conjuntos de datos específicos del usuario. Frameworks como PyTorch y TensorFlow también ofrecen un amplio soporte y tutoriales para implementar flujos de trabajo de aprendizaje por transferencia. Para una comprensión teórica más profunda, recursos como el resumen de Stanford CS231n sobre el aprendizaje por transferencia o estudios académicos como"A Survey on Deep Transfer Learning" proporcionan información valiosa.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles