Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Ultralytics YOLO

Manos a la obra con YOLO-World

Aprende sobre YOLO-World, un innovador modelo de detección de objetos que puede identificar elementos mediante prompts de texto. Explora cómo funciona YOLO-World, sus aplicaciones y ponte manos a la obra con un rápido ejemplo de código.

ABAbirami Vina
4 min read
Manos a la obra con YOLO-World

Los proyectos de visión artificial a menudo implican dedicar mucho tiempo a anotar datos y entrenar modelos de detección de objetos. Sin embargo, eso pronto podría quedar en el pasado. El laboratorio de IA de Tencent lanzó YOLO-World, un modelo de detección de objetos de vocabulario abierto y en tiempo real, el 31 de enero de 2024. YOLO-World es un modelo zero-shot, lo que significa que puedes ejecutar inferencias de detección de objetos en imágenes sin tener que entrenarlo.

Los modelos zero-shot tienen el potencial de cambiar la forma en que abordamos las aplicaciones de visión artificial. En este blog, exploraremos cómo funciona YOLO-World y sus posibles usos, y compartiremos un ejemplo práctico de código para que empieces.

Link to this sectionUn vistazo a YOLO-World#

Puedes enviar una imagen y un mensaje de texto que describa qué objetos buscas a través del modelo YOLO-World. Por ejemplo, si te interesa encontrar "una persona usando una camisa roja" dentro de una foto, YOLO-World toma esta entrada y se pone a trabajar.

La arquitectura única del modelo combina tres elementos principales:

  • Un detector basado en el modelo de detección de objetos Ultralytics YOLOv8, para analizar el contenido visual de la imagen.
  • Un codificador de texto preentrenado por CLIP de OpenAI, diseñado específicamente para comprender tu mensaje de texto.
  • Una red, la Red de Agregación de Rutas Visión-Lenguaje (RepVL-PAN), que integra los datos de imagen procesados con los datos de texto.

El detector de YOLO escanea tu imagen de entrada para identificar posibles objetos. El codificador de texto transforma tu descripción en un formato que el modelo pueda entender. Estos dos flujos de información se fusionan luego a través de la RepVL-PAN utilizando una fusión de modalidades cruzadas de varios niveles. Esto permite a YOLO-World detectar y localizar con precisión los objetos descritos en tu mensaje dentro de la imagen.

Un ejemplo de resultados de YOLO-World

Un ejemplo de los resultados de YOLO-World.

Link to this sectionBeneficios de elegir YOLO-World#

Una de las mayores ventajas de usar YOLO-World es que no tienes que entrenar el modelo para una clase específica. Ya ha aprendido de pares de imágenes y textos, por lo que sabe cómo encontrar objetos basados en descripciones. Puedes evitar horas de recopilación de datos, anotación de datos, entrenamiento en costosas GPU, etcétera.

Aquí tienes otros beneficios de usar YOLO-World:

  • Rendimiento en tiempo real - YOLO-World admite un rendimiento en tiempo real al igual que la arquitectura original de YOLO. Es ideal para aplicaciones que requieren detección inmediata de objetos, como vehículos autónomos y sistemas de vigilancia.
  • Segmentación de instancias - YOLO-World puede perfilar y separar limpiamente objetos en imágenes, incluso si esos objetos no fueron enseñados específicamente durante su entrenamiento.
  • Eficiencia - YOLO-World combina una alta precisión con eficiencia computacional, lo que lo hace práctico para aplicaciones del mundo real. Su arquitectura optimizada hace posible una detección rápida de objetos sin exigencias excesivas en cuanto a potencia de procesamiento.

Link to this sectionLas aplicaciones de YOLO-World#

Los modelos YOLO-World pueden utilizarse para una gran variedad de aplicaciones. Exploremos algunas de ellas.

Link to this sectionControl de calidad en la fabricación#

Los productos fabricados en una línea de montaje se revisan visualmente en busca de defectos antes de empaquetarlos. La detección de defectos a menudo se realiza a mano, lo que lleva tiempo y puede dar lugar a errores. Estos errores pueden causar problemas como costes elevados y la necesidad de reparaciones o retiradas de productos. Para ayudar en esto, se han creado cámaras de visión artificial especiales y sistemas de IA para realizar estas comprobaciones.

Los modelos YOLO-World suponen un gran avance en este ámbito. Pueden encontrar defectos en productos incluso cuando no han sido entrenados para ese problema específico gracias a sus capacidades zero-shot. Por ejemplo, una fábrica que produzca botellas de agua puede identificar fácilmente la diferencia entre una botella sellada correctamente con una tapa frente a una botella a la que le falta la tapa o está defectuosa utilizando YOLO-World.

Un ejemplo de inspección de tapones de botellas

Un ejemplo de inspección de tapas de botellas.

Link to this sectionRobótica#

Los modelos YOLO-World permiten a los robots interactuar con entornos desconocidos. Sin estar entrenados en objetos específicos que puedan estar en una habitación, pueden identificar qué objetos están presentes. Así que, supongamos que un robot entra en una habitación en la que nunca ha estado antes. Con un modelo YOLO-World, todavía puede reconocer e identificar objetos como sillas, mesas o lámparas, a pesar de no haber sido entrenado específicamente en esos elementos.

Además de la detección de objetos, YOLO-World también puede determinar las condiciones de esos objetos, gracias a su función de 'prompt-then-detect'. Por ejemplo, en robótica agrícola, se puede utilizar para identificar frutas maduras frente a frutas que no lo están programando al robot para detectarlas.

Link to this sectionIA en la industria automotriz#

La industria automotriz implica muchas piezas móviles, y YOLO-World se puede utilizar para diferentes aplicaciones automotrices. Por ejemplo, en lo que respecta al mantenimiento de vehículos, la capacidad de YOLO-World para reconocer una amplia variedad de objetos sin etiquetado manual ni un preentrenamiento extenso es extremadamente útil. YOLO-World puede usarse para identificar piezas de automóvil que necesitan ser reemplazadas. Incluso podría automatizar tareas como controles de calidad, detectando defectos o piezas faltantes en coches nuevos.

Otra aplicación es la detección de objetos zero-shot en coches autónomos. Las capacidades de detección zero-shot de YOLO-World pueden mejorar la capacidad de un vehículo autónomo para detectar y clasificar objetos en la carretera, como peatones, señales de tráfico y otros vehículos, en tiempo real. Al hacerlo, puede ayudar a detectar obstáculos y prevenir accidentes para un viaje más seguro.

Un ejemplo de detección de objetos en una carretera

Un ejemplo de detección de objetos en una carretera.

Link to this sectionGestión de inventario para tiendas minoristas#

Identificar objetos en estanterías de tiendas minoristas es una parte importante del seguimiento de inventario, mantenimiento de existencias y automatización de procesos. La capacidad de Ultralytics YOLO-World para reconocer una amplia variedad de objetos sin etiquetado manual ni preentrenamiento extenso es extremadamente útil para la gestión de inventario.

Por ejemplo, en la gestión de inventario, YOLO-World puede detectar y categorizar rápidamente artículos en una estantería, como diferentes marcas de bebidas energéticas. Las tiendas minoristas pueden mantener un inventario preciso, gestionar los niveles de existencias de manera eficiente y agilizar las operaciones de la cadena de suministro.

Todas las aplicaciones son únicas y muestran hasta qué punto puede utilizarse YOLO-World. A continuación, pongámonos manos a la obra con YOLO-World y echemos un vistazo a un ejemplo de código.

Link to this sectionUn recorrido por el código#

Como mencionamos anteriormente, YOLO-World puede utilizarse para detectar diferentes partes de un coche para su mantenimiento. Una aplicación de visión artificial que detecte cualquier reparación necesaria implicaría tomar una fotografía del coche, identificar las piezas, examinar cada parte en busca de daños y recomendar reparaciones. Cada parte de este sistema utilizaría diferentes técnicas y enfoques de IA. Para el propósito de este recorrido por el código, centrémonos en la parte en la que se detectan las piezas del coche.

Con YOLO-World, puedes identificar diferentes piezas de coche en una imagen en menos de 5 minutos. ¡Puedes ampliar este código para probar diferentes aplicaciones usando YOLO-World también! Para empezar, necesitaremos realizar un pip install del paquete Ultralytics como se muestra a continuación.

Para obtener más instrucciones y mejores prácticas relacionadas con el proceso de instalación, consulta nuestra guía de Instalación de Ultralytics. Mientras instalas los paquetes necesarios para YOLOv8, si encuentras alguna dificultad, echa un vistazo a nuestra guía de Problemas Comunes para encontrar soluciones y consejos.

Una vez que hayas instalado el paquete necesario, podemos descargar una imagen de Internet para ejecutar nuestras inferencias. Vamos a utilizar la imagen a continuación.

Nuestra imagen de entrada

Nuestra imagen de entrada.

Luego, importaremos el paquete necesario, inicializaremos nuestro modelo y estableceremos las clases que buscamos en nuestra imagen de entrada. Aquí, nos interesan las siguientes clases: coche, rueda, puerta de coche, espejo retrovisor y matrícula.

Luego utilizaremos el método predict, proporcionando la ruta de la imagen junto con los parámetros para el número máximo de detecciones, y umbrales para la intersección sobre la unión (IoU) y la confianza (conf) para ejecutar una inferencia en la imagen. Por último, los objetos detectados se guardan en un archivo llamado 'result.jpg'.

La siguiente imagen de salida se guardará en tus archivos.

Nuestra imagen de salida

Nuestra imagen de salida.

Si prefieres ver lo que YOLO-World puede hacer sin programar, puedes ir a la página de demostración de YOLO-World, subir una imagen de entrada e introducir las clases personalizadas.

Lee nuestra página de documentación sobre YOLO-World para aprender a guardar el modelo con las clases personalizadas de modo que pueda utilizarse directamente más tarde sin tener que introducir las clases personalizadas repetidamente.

Link to this section¿Te diste cuenta de que las puertas del coche no fueron detectadas?#

Si vuelves a mirar la imagen de salida, notarás que la clase personalizada “car door” no fue detectada. A pesar de sus grandes logros, YOLO-World tiene ciertas limitaciones. Para combatir estas limitaciones y utilizar el modelo YOLO-World con eficacia, es importante utilizar los tipos correctos de mensajes de texto.

Aquí tienes algo de información al respecto:

  • Es posible que YOLO-World no necesite niveles altos de confianza para realizar predicciones precisas, por lo que reducir los umbrales de confianza puede mejorar las tasas de detección.
  • Añade clases que no te interesen. Ayudará a mejorar la detección de objetos principal al reducir los falsos positivos para objetos secundarios.
  • Detectar objetos más grandes primero antes de centrarse en detalles más pequeños puede mejorar la precisión de la detección.
  • Menciona colores en tus clases para detectar objetos basados en señales de color.
  • Describir los tamaños de los objetos en los mensajes también puede ayudar a YOLO-World a identificar objetos específicos con mayor precisión.
  • Los métodos de posprocesamiento, como filtrar las predicciones por tamaño o ajustar los niveles de confianza por clase, pueden mejorar aún más los resultados de la detección de objetos.

Link to this sectionLos límites son infinitos#

En general, los modelos YOLO-World pueden convertirse en una herramienta potente gracias a sus capacidades avanzadas de detección de objetos. Proporcionan una gran eficiencia, precisión y ayudan a automatizar diferentes tareas en diversas aplicaciones, como el ejemplo de identificar piezas de coche que analizamos prácticamente.

Siéntete libre de explorar nuestro repositorio de GitHub para aprender más sobre nuestras contribuciones a la visión artificial y la IA. Si tienes curiosidad sobre cómo la IA está remodelando sectores como la tecnología sanitaria, echa un vistazo a nuestras páginas de soluciones. ¡Las posibilidades con innovaciones como YOLO-World parecen ser infinitas!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático