Explora el aprendizaje sin datos (Zero-Shot Learning, ZSL) para detect classify sin datos de entrenamiento. Descubre cómo Ultralytics YOLO permite la detección en tiempo real con vocabulario abierto.
El aprendizaje sin datos (Zero-Shot Learning, ZSL) es un paradigma de aprendizaje automático que permite a los modelos de inteligencia artificial reconocer, classify o detect con los que nunca se han encontrado durante su fase de entrenamiento. En el aprendizaje supervisado tradicional, un modelo requiere miles de ejemplos etiquetados para cada categoría específica que necesita identificar. El ZSL elimina esta estricta dependencia al aprovechar la información auxiliar —normalmente descripciones de texto, atributos semánticos o incrustaciones—para salvar la brecha entre las clases vistas y no vistas . Esta capacidad permite que los sistemas de inteligencia artificial (IA) sean significativamente más flexibles, escalables y capaces de manejar entornos dinámicos en los que no es práctico recopilar datos exhaustivos para cada objeto posible.
El mecanismo central de ZSL implica transferir conocimiento de conceptos familiares a desconocidos utilizando un espacio semántico compartido. En lugar de aprender a reconocer una «cebra» únicamente memorizando patrones de píxeles de rayas blancas y negras, el modelo aprende la relación entre las características visuales y los atributos semánticos (por ejemplo, «forma similar a un caballo», «patrón rayado», «cuatro patas») derivados del procesamiento del lenguaje natural (NLP).
Este proceso suele basarse en modelos multimodales que alinean las representaciones de imágenes y texto . Por ejemplo, investigaciones fundamentales como CLIP de OpenAI demuestran cómo los modelos pueden aprender conceptos visuales a partir de la supervisión del lenguaje natural. Cuando un modelo ZSL se encuentra con un objeto desconocido, extrae las características visuales y las compara con un diccionario de vectores semánticos. Si las características visuales se alinean con la descripción semántica de la nueva clase, el modelo puede classify correctamente, realizando de manera efectiva una predicción «zero-shot». Este enfoque es fundamental para los modelos básicos modernos que se generalizan en una amplia gama de tareas.
El aprendizaje sin datos (Zero-Shot Learning) está impulsando la innovación en diversas industrias al permitir que los sistemas generalicen más allá de sus datos de entrenamiento iniciales.
El modelo YOLOUltralytics es un ejemplo de aprendizaje sin disparos en acción. Permite a los usuarios definir clases personalizadas de forma dinámica en tiempo de ejecución sin necesidad de volver a entrenar el modelo. Esto se consigue conectando una sólida columna vertebral de detección con un codificador de texto que entiende el lenguaje natural.
El siguiente Python muestra cómo utilizar YOLO para detect que no formaban parte explícitamente de un
conjunto de entrenamiento estándar utilizando el ultralytics paquete.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Para entender bien la ZSL, conviene distinguirla de estrategias de aprendizaje similares utilizadas en visión por ordenador (CV):
Aunque ZSL ofrece un inmenso potencial, se enfrenta a retos como el problema del cambio de dominio, en el que los atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con la apariencia visual de las clases no vistas. Además, los modelos ZSL pueden sufrir sesgos, por lo que la precisión de la predicción es significativamente mayor para las clases vistas en comparación con las no vistas.
Investigaciones de organizaciones como el Laboratorio de Inteligencia Artificial de la Universidad de Stanford y la IEEE Computer Society continúan abordando estas limitaciones. A medida que las herramientas de visión artificial se vuelven más robustas, se espera que ZSL se convierta en una característica estándar, reduciendo la dependencia de los enormes esfuerzos de etiquetado de datos. Para los equipos que buscan gestionar conjuntos de datos de manera eficiente antes de implementar modelos avanzados, Ultralytics ofrece herramientas completas para la anotación y la gestión de conjuntos de datos.