Descubra Zero-Shot Learning: un enfoque de IA de vanguardia que permite a los modelos classify datos no vistos, revolucionando la detección de objetos, la PNL y mucho más.
El Aprendizaje Cero Disparos (ZSL) es un potente paradigma del aprendizaje automático (AM) que permite a los reconocer, classify o detect objetos que nunca han encontrado durante la fase de fase de datos de entrenamiento. En el aprendizaje supervisado tradicional, un modelo debe miles de imágenes etiquetadas para cada categoría específica que debe identificar. ZSL elimina esta limitación información auxiliar, como descripciones de texto, atributos o incrustaciones semánticas. parasalvar la distancia entre las clases vistas y las no vistas. no vistas. Esta capacidad permite sistemas de inteligencia artificial (IA ) (IA) sean mucho más flexibles, escalables y capaces de manejar entornos dinámicos en los que no es factible recopilar datos exhaustivos de todos los objetos posibles. exhaustiva de todos los objetos posibles.
El mecanismo central de la ZSL consiste en transferir conocimientos de conceptos familiares a otros desconocidos utilizando un espacio semántico compartido. espacio semántico compartido. En lugar de aprender a reconocer un "gato" únicamente memorizando patrones de píxeles, el modelo aprende la relación entre las características visuales y los atributos semánticos (p. ej., "peludo", "bigotes", "cuatro"). "bigotes", "cuatro patas") derivados del procesamiento del lenguaje natural (PLN).
Este proceso suele basarse en modelos multimodales que alinean las representaciones texto. Por ejemplo, investigaciones fundacionales como CLIP de OpenAI demuestra cómo los modelos pueden aprender conceptos visuales a partir de la supervisión del lenguaje natural. Cuando un modelo ZSL encuentra un objeto desconocido, como una especie rara de ave, extrae las características visuales y las compara con un diccionario de vectores semánticos. Si las características visuales coinciden con la con la descripción semántica de la nueva clase, el modelo puede classify correctamente. predicción de "tiro por cero".
Para entender bien la ZSL, conviene distinguirla de estrategias de aprendizaje similares utilizadas en visión por ordenador (CV):
Zero-Shot Learning está impulsando la innovación en diversos sectores al permitir a los sistemas generalizar más allá de su formación inicial. formación inicial.
El modelo YOLOUltralytics ejemplifica el Zero-Shot en acción. Permite a los usuarios definir clases personalizadas de forma dinámica en tiempo de ejecución sin necesidad de volver a entrenar el modelo. Este se consigue conectando el modelo YOLO11 con un codificador de texto un codificador de texto basado en CLIP.
El siguiente ejemplo Python muestra cómo utilizar YOLO para detect objetos que no formaban parte de un conjunto de datos COCO estándar, como colores específicos de ropa, mediante el uso de YOLO.
COCO estándar, como colores específicos de ropa, utilizando la función ultralytics paquete.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Aunque la ZSL ofrece un inmenso potencial, se enfrenta a retos como el problema del cambio de dominio, en el que los atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con la apariencia visual de clases no vistas. atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con el aspecto visual de las clases no vistas. Además, los modelos ZSL pueden estar sesgados, ya que la precisión de la predicción es significativamente mayor para las clases vistas que para las no vistas. para las clases vistas en comparación con las no vistas (Aprendizaje Generalizado de Tiro Cero).
La investigación de organizaciones como el Laboratorio de IA de la Universidad de Stanford y la IEEE Computer Society siguen abordando estas limitaciones. A medida que más robustos, se espera que la ZSL se ZSL se convierta en una función herramientas de visión por ordenador, reduciendo la dependencia de etiquetado de datos y democratizando el acceso a capacidades avanzadas de IA.