¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Aprendizaje Zero-Shot

Descubra el aprendizaje Zero-Shot: un enfoque de IA de vanguardia que permite a los modelos clasificar datos no vistos, revolucionando la detección de objetos, el PNL y más.

El Aprendizaje Zero-Shot (ZSL) es una capacidad fascinante en el aprendizaje automático (ML) donde un modelo puede reconocer y clasificar objetos de categorías que nunca ha visto durante su fase de datos de entrenamiento. A diferencia del aprendizaje supervisado tradicional, que requiere ejemplos explícitos para cada clase posible, ZSL permite que un modelo generalice su conocimiento a clases nuevas y no vistas. Esto se logra asociando clases observadas y no observadas a través de descripciones semánticas de alto nivel, como atributos o incrustaciones de texto. Esto permite que un modelo de IA sea más flexible y escalable, especialmente en escenarios del mundo real donde la recopilación de datos etiquetados exhaustivos es poco práctica.

¿Cómo funciona?

La idea central detrás de ZSL es crear un espacio de incrustación (embedding) compartido donde tanto las características visuales de las imágenes como la información semántica del texto puedan representarse. Durante el entrenamiento, el modelo aprende a mapear las imágenes de clases vistas a sus vectores semánticos correspondientes (atributos o incrustaciones de palabras). Por ejemplo, el modelo aprende las características visuales de un "caballo" y las vincula a una descripción semántica como "tiene cuatro patas", "es un mamífero" y "se puede montar".

Cuando se presenta una imagen de una clase no vista, como una "cebra", el modelo extrae sus características visuales. Simultáneamente, utiliza la descripción semántica de una "cebra" —por ejemplo, "es parecida a un caballo", "tiene rayas"— para ubicarla en el espacio de incrustación. Al encontrar la descripción semántica más cercana a las características visuales extraídas, el modelo puede clasificar correctamente la imagen como una "cebra", incluso sin una sola imagen de entrenamiento de una. Este proceso a menudo se basa en potentes modelos multi-modales pre-entrenados como CLIP de OpenAI, que sobresalen en la conexión de la visión y el lenguaje.

Aprendizaje Zero-Shot Vs. Otros Paradigmas

Es importante distinguir ZSL de técnicas de aprendizaje relacionadas:

  • Aprendizaje con Pocos Ejemplos (FSL): En FSL, el modelo se entrena con un número muy pequeño de ejemplos etiquetados (por ejemplo, de 1 a 5) para cada nueva clase. Esto es diferente de ZSL, que opera con cero ejemplos de la clase objetivo.
  • Aprendizaje con un solo ejemplo (OSL): Un subtipo de FSL donde el modelo recibe exactamente un ejemplo de una nueva clase. Está más limitado por los datos que el FSL general, pero aún requiere al menos una muestra, a diferencia del ZSL.
  • Aprendizaje por Transferencia: ZSL es una forma de aprendizaje por transferencia, pero es único. Mientras que el aprendizaje por transferencia estándar normalmente implica ajustar un modelo pre-entrenado en un nuevo conjunto de datos etiquetado (más pequeño), ZSL transfiere el conocimiento a nuevas clases utilizando solo información semántica auxiliar, evitando la necesidad de cualquier ejemplo etiquetado de esas clases.

Aplicaciones en el mundo real

ZSL tiene numerosas aplicaciones prácticas, lo que hace que los sistemas de visión artificial sean más dinámicos y adaptables.

  1. Detección de objetos de vocabulario abierto: Modelos como YOLO-World aprovechan ZSL para detectar cualquier objeto descrito por texto. Un usuario puede proporcionar indicaciones de texto como "persona con una camisa azul" o "tubería con fugas", y el modelo puede localizar estos objetos en una imagen o flujo de video sin haber sido entrenado explícitamente en esas categorías específicas. Este es un paso significativo hacia la creación de sistemas de visión de propósito verdaderamente general.
  2. Identificación autónoma de especies: En la IA para la conservación de la vida silvestre, ZSL puede identificar especies raras o recién descubiertas. Un modelo entrenado en animales comunes puede utilizar atributos descriptivos (por ejemplo, "tiene un cuello largo", "es manchado", "es herbívoro") de una base de conocimientos como Wikipedia para identificar una jirafa, incluso si no hubiera imágenes de jirafas en su conjunto de entrenamiento original.

Desafíos y direcciones futuras

A pesar de su potencial, ZSL se enfrenta a desafíos como el problema del hubness (donde algunos puntos en el espacio semántico se convierten en vecinos más cercanos de demasiados puntos) y el cambio de dominio (donde las relaciones entre las características y los atributos difieren entre las clases vistas y no vistas). Para abordar estos problemas, los investigadores están desarrollando técnicas más sólidas como el Aprendizaje Zero-Shot Generalizado (GZSL), donde el modelo debe reconocer tanto las clases vistas como las no vistas durante la inferencia. La evolución de los modelos fundacionales y plataformas como Ultralytics HUB simplificará aún más la integración y la implementación de ZSL, haciendo que los sistemas de IA sean menos dependientes del etiquetado de datos extensivo y más alineados con el razonamiento similar al humano.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles