Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Zero-Shot

Descubra Zero-Shot Learning: un enfoque de IA de vanguardia que permite a los modelos classify datos no vistos, revolucionando la detección de objetos, la PNL y mucho más.

El Aprendizaje Cero Disparos (ZSL) es un potente paradigma del aprendizaje automático (AM) que permite a los reconocer, classify o detect objetos que nunca han encontrado durante la fase de fase de datos de entrenamiento. En el aprendizaje supervisado tradicional, un modelo debe miles de imágenes etiquetadas para cada categoría específica que debe identificar. ZSL elimina esta limitación información auxiliar, como descripciones de texto, atributos o incrustaciones semánticas. parasalvar la distancia entre las clases vistas y las no vistas. no vistas. Esta capacidad permite sistemas de inteligencia artificial (IA ) (IA) sean mucho más flexibles, escalables y capaces de manejar entornos dinámicos en los que no es factible recopilar datos exhaustivos de todos los objetos posibles. exhaustiva de todos los objetos posibles.

Cómo funciona Zero-Shot Learning

El mecanismo central de la ZSL consiste en transferir conocimientos de conceptos familiares a otros desconocidos utilizando un espacio semántico compartido. espacio semántico compartido. En lugar de aprender a reconocer un "gato" únicamente memorizando patrones de píxeles, el modelo aprende la relación entre las características visuales y los atributos semánticos (p. ej., "peludo", "bigotes", "cuatro"). "bigotes", "cuatro patas") derivados del procesamiento del lenguaje natural (PLN).

Este proceso suele basarse en modelos multimodales que alinean las representaciones texto. Por ejemplo, investigaciones fundacionales como CLIP de OpenAI demuestra cómo los modelos pueden aprender conceptos visuales a partir de la supervisión del lenguaje natural. Cuando un modelo ZSL encuentra un objeto desconocido, como una especie rara de ave, extrae las características visuales y las compara con un diccionario de vectores semánticos. Si las características visuales coinciden con la con la descripción semántica de la nueva clase, el modelo puede classify correctamente. predicción de "tiro por cero".

Distinción de conceptos afines

Para entender bien la ZSL, conviene distinguirla de estrategias de aprendizaje similares utilizadas en visión por ordenador (CV):

  • Aprendizaje de Pocos Tiros (FSL): Mientras que ZSL no requiere ejemplos de la clase objetivo, FSL proporciona al modelo un conjunto de apoyo muy pequeño (normalmente de 1 a 5 ejemplos) para adaptarse. El ZSL es más difícil, ya que se basa por completo en la inferencia semántica y no en ejemplos visuales. en lugar de ejemplos visuales.
  • Aprendizaje único: Un subconjunto de FSL en el que el modelo aprende exactamente a partir de un ejemplo etiquetado. ZSL difiere fundamentalmente porque funciona sin una sola imagen de la nueva categoría.
  • Aprendizaje por transferencia: Este término se refiere a la transferencia de conocimientos de una tarea a otra. ZSL es un tipo específico de aprendizaje por transferencia que transferencia que utiliza atributos semánticos para transferir conocimientos a clases no vistas sin de los datos nuevos.

Aplicaciones en el mundo real

Zero-Shot Learning está impulsando la innovación en diversos sectores al permitir a los sistemas generalizar más allá de su formación inicial. formación inicial.

  1. Detección de objetos de vocabulario abierto: Las arquitecturas modernas como YOLO utilizan ZSL para detect objetos basados en texto definido por el usuario. Esto permite detección de objetos en escenarios en los que lista fija de clases de antemano es imposible, como la búsqueda de elementos concretos en vastos archivos de vídeo. Los investigadores deGoogle Research y otras instituciones están mejorando activamente estas funciones de vocabulario abierto.
  2. Diagnóstico médico: En AI en la atención sanitaria, la obtención de datos etiquetados para enfermedades raras es difícil y costosa. Los modelos ZSL pueden entrenarse a partir de enfermedades comunes y descripciones de síntomas raros de libros de texto médicos (por ejemplo, artículos de PubMed). de libros de texto médicos (por ejemplo, artículos de PubMed ). de rayos X o resonancias magnéticas sin necesidad de un conjunto de datos masivo de casos positivos. casos positivos.
  3. Conservación de la fauna: Para AI en agricultura y ecología, identificar especies en peligro de extinción que rara vez se fotografían es fundamental. ZSL permite a los conservacionistas detect estos animales mediante descripciones basadas en atributos (por ejemplo, patrones específicos de pelaje o formas de cuernos) definidos en bases de datos biológicas como la Enciclopedia de la Vida.

Detección de disparo cero con Ultralytics

El modelo YOLOUltralytics ejemplifica el Zero-Shot en acción. Permite a los usuarios definir clases personalizadas de forma dinámica en tiempo de ejecución sin necesidad de volver a entrenar el modelo. Este se consigue conectando el modelo YOLO11 con un codificador de texto un codificador de texto basado en CLIP.

El siguiente ejemplo Python muestra cómo utilizar YOLO para detect objetos que no formaban parte de un conjunto de datos COCO estándar, como colores específicos de ropa, mediante el uso de YOLO. COCO estándar, como colores específicos de ropa, utilizando la función ultralytics paquete.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Retos y perspectivas

Aunque la ZSL ofrece un inmenso potencial, se enfrenta a retos como el problema del cambio de dominio, en el que los atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con la apariencia visual de clases no vistas. atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con el aspecto visual de las clases no vistas. Además, los modelos ZSL pueden estar sesgados, ya que la precisión de la predicción es significativamente mayor para las clases vistas que para las no vistas. para las clases vistas en comparación con las no vistas (Aprendizaje Generalizado de Tiro Cero).

La investigación de organizaciones como el Laboratorio de IA de la Universidad de Stanford y la IEEE Computer Society siguen abordando estas limitaciones. A medida que más robustos, se espera que la ZSL se ZSL se convierta en una función herramientas de visión por ordenador, reduciendo la dependencia de etiquetado de datos y democratizando el acceso a capacidades avanzadas de IA.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora