¿Qué es YOLOE? Llevar más allá los modelos de visión por ordenador

Abirami Vina

5 minutos de lectura

8 de mayo de 2025

Descubra cómo YOLOE le permite encontrar objetos con una simple indicación o foto. Permite una visión por ordenador más inteligente y rápida sin necesidad de reentrenar o ajustar los modelos.

La detección de objetos es una tarea clave de la visión por ordenador, cuyo objetivo es identificar y localizar objetos en imágenes o vídeos. Es una parte crucial de la visión por ordenador, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un coche en una foto o a detectar a una persona en un vídeo.

Una de las series de modelos más conocidas para tareas de visión por ordenador como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para ofrecer velocidad y precisión, los modelos YOLO no han dejado de mejorar con el tiempo. Por ejemplo, una de las últimas versiones, Ultralytics YOLO11, ofrece un buen rendimiento en situaciones reales, proporcionando resultados precisos incluso en entornos más complejos.

Un nuevo modelo, denominado YOLOE, pretende ampliar las capacidades de los modelos YOLO. A diferencia de los modelos tradicionales, que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir sencillas instrucciones de texto o imagen para detectar objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.

En este artículo analizaremos en detalle qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puede empezar a utilizarlo hoy mismo. Empecemos.

Visión general de YOLOE

YOLOE es un modelo de visión por ordenador que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que diferencia a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto. 

Mientras que la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE permite especificar qué buscar mediante una breve descripción o una imagen de ejemplo. Por ejemplo, si buscas una "mochila verde", puedes escribir esa descripción o mostrar al modelo una foto, y YOLOE la localizará dentro de la escena.

Además, incluso sin ninguna indicación, YOLOE puede detectar por sí solo muchos objetos cotidianos. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección de disparo cero. Resulta especialmente útil en entornos dinámicos en los que la tarea o los objetos de interés pueden cambiar inesperadamente.

Fig. 1. Un vistazo a las capacidades de YOLOE.

Características principales de YOLOE

YOLOE es compatible con una amplia gama de funciones diseñadas para mejorar su rendimiento en aplicaciones reales. Gracias a su capacidad para manejar entradas estructuradas y no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos. 

Estas son algunas de las principales características del modelo:

  • Detección basada en instrucciones: YOLOE puede buscar objetos a partir de un texto breve o de una imagen de ejemplo. Esto significa que no es necesario volver a entrenar el modelo cada vez que cambia la tarea; basta con describir o mostrar al modelo lo que se está buscando.
  • Segmentación de instancias: Además de dibujar cuadros delimitadores alrededor de los objetos, YOLOE puede delinear su forma exacta utilizando la segmentación de instancias. Esto es especialmente útil cuando los objetos se superponen o cuando necesita conocer los límites precisos de un objeto.
  • Reconocimiento de objetos sin instrucciones: YOLOE puede reconocer objetos incluso sin instrucciones específicas. Utiliza un conjunto de descripciones preaprendidas para identificar objetos rápidamente, lo que agiliza el proceso y lo hace más eficiente.

Comparación del YOLOE con otros modelos YOLO

Ahora que entendemos mejor qué es YOLOE, echemos un vistazo a algunos modelos similares de la familia YOLO. 

A medida que la visión por ordenador ha ido progresando, también lo han hecho los modelos YOLO. Por ejemplo, Ultralytics YOLOv8 aportó compatibilidad con nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento de una gama más amplia de tareas.

Además, YOLO-World se lanzó en enero de 2024 e introdujo la posibilidad de utilizar instrucciones escritas para que los usuarios describieran los objetos que querían encontrar. Aunque YOLO-World era una gran opción para la detección de disparos cero, carecía de funciones como la segmentación de instancias y el soporte de indicaciones visuales. 

YOLOE se basa en YOLO-World añadiendo estas capacidades, mejorando la flexibilidad y el rendimiento, y ofreciendo una herramienta más impactante para las aplicaciones de visión por ordenador del mundo real.

Fig. 2. Tanto YOLO-World como YOLOE admiten la detección de disparo cero.

Utilización de YOLOE con el paquete Ultralytics Python

Tanto si desea detectar objetos específicos como explorar todo lo que hay en una imagen, empezar a utilizar YOLOE es muy sencillo. Este modelo es compatible con el paquete Ultralytics Python, lo que facilita su integración en sus proyectos. A continuación, vamos a ver cómo utilizarlo.

Instalación del paquete Ultralytics

El primer paso es instalar el paquete Ultralytics Python utilizando un gestor de paquetes como 'pip'. Puede hacerlo ejecutando el comando "pip install ultralytics" en su terminal o símbolo del sistema.

Una vez instalado el paquete, dispondrá de todo lo necesario para cargar el modelo, realizar predicciones y experimentar con distintos modos de detección. Si te encuentras con algún problema durante la instalación, la documentación oficial de Ultralytics ofrece una útil sección de resolución de problemas

Existen varias formas de utilizar YOLOE para realizar predicciones. Ejecutar predicciones significa utilizar el modelo entrenado para identificar y localizar objetos en imágenes o vídeos. Estos diferentes métodos le permiten personalizar la forma de interactuar con el modelo en función de sus necesidades específicas.

Analicemos cada uno de estos métodos, uno por uno.

Detección de objetos específicos con indicaciones de texto o imágenes

YOLOE puede detectar objetos basándose en una breve descripción de texto. Por ejemplo, si buscas un caballo en movimiento, puedes utilizar una indicación como "caballo caminando".

Para empezar, primero, cargue el modelo YOLOE preentrenado y configure su prompt (la descripción de lo que quiere que busque el modelo) como se muestra en el fragmento de código siguiente.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una vez configurados el modelo y el indicador, puede ejecutar el modelo en una imagen o un vídeo. Sustituye la ruta del archivo en el código por la ruta del archivo de imagen o vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Esto mostrará la imagen con el objeto detectado claramente marcado en base a su solicitud. Puede cambiar la indicación para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", en función de lo que esté buscando.

Fig. 3. Ejemplo de utilización de YOLOE para detectar objetos específicos mediante una indicación de texto.

Del mismo modo, puede utilizar una imagen para preguntar a YOLOE con el paquete Ultralytics Python. En el modo visual, el modelo utiliza la imagen para encontrar objetos similares en otra escena. Esto resulta especialmente útil para objetos difíciles de describir o que carecen de etiquetas claras. 

Para explorar el código con más detalle, puede consultar la documentación de Ultralytics.

Detección general de objetos mediante YOLOE

En algunos casos, es posible que no sepa exactamente qué buscar, o que no esté buscando un objeto concreto. Ahí es donde el modo sin pregunta resulta útil. 

Con esta opción, no es necesario escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí solo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.

Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Tanto si está escaneando una habitación abarrotada de gente como si está revisando secuencias con mucha actividad, el modo sin indicaciones le permite echar un vistazo rápido a lo que está presente en una imagen. 

Puede utilizar el siguiente código para ejecutar YOLOE en modo "prompt-free". Primero se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos que contiene. Por último, se muestran los resultados y se resaltan los objetos detectados. 

Asegúrese de sustituir la ruta del archivo por la ruta real de su imagen.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detectar en modo "prompt-free".

Fig. 4. Utilización de YOLOE en modo "prompt-free".

Aplicaciones de YOLOE en tiempo real

La capacidad de YOLOE para responder tanto a mensajes de texto como a imágenes lo convierte en una herramienta fiable para aplicaciones en tiempo real. Su flexibilidad es especialmente útil en entornos rápidos en los que el tiempo y la precisión son esenciales. 

Veamos algunos ejemplos reales de cómo utilizar YOLOE.

Mejora de la gestión de equipajes: Detección de equipajes en tiempo real

En los aeropuertos más concurridos, localizar un equipaje concreto puede resultar complicado, sobre todo cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear vídeos en directo e identificar rápidamente los artículos basándose en indicaciones sencillas como "bolsa roja". 

Si falta una maleta o se extravía, el personal puede cambiar fácilmente la indicación para buscar un artículo diferente, como una "maleta negra". Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin necesidad de revisar largas horas de grabación ni de volver a entrenar el modelo, lo que agiliza y hace más eficaz la gestión del equipaje y la resolución de los problemas de equipaje extraviado.

Vigilancia de espacios públicos con YOLOE

Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías abarrotados, suelen incluir una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real en el modo sin avisos, detectando automáticamente objetos como bolsas, mesas o bicicletas sin necesidad de instrucciones específicas.

Fig. 5. YOLOE puede detectar varios objetos en un espacio público concurrido.

Esto resulta especialmente útil para que los equipos de seguridad detecten objetos desatendidos o sigan el movimiento de la multitud. La capacidad de YOLOE para detectar varios objetos a la vez facilita la gestión de espacios públicos durante eventos o periodos de gran afluencia, ayudando a los equipos a mantenerse informados y reaccionar.

Pros y contras de YOLOE

Estas son algunas de las principales ventajas de utilizar YOLOE para aplicaciones de visión por ordenador:

  • Rendimiento en tiempo real: YOLOE está optimizado para un procesamiento rápido y eficaz, lo que permite la detección en tiempo real, incluso en entornos dinámicos como transmisiones de vídeo en directo o espacios públicos muy concurridos.
  • Escalabilidad: YOLOE es escalable y funciona bien para una amplia variedad de aplicaciones, desde la seguridad y la vigilancia hasta el comercio minorista, la sanidad y los vehículos autónomos.
  • Fácil de utilizar: Dado que YOLOE es compatible con el paquete Ultralytics Python, es fácil de integrar en sus proyectos de visión por ordenador existentes.

Sin embargo, hay que tener en cuenta algunas limitaciones al utilizar YOLOE. He aquí un par de factores a tener en cuenta:

  • Requiere datos de entrenamiento suficientes: Aunque YOLOE admite la detección sin disparos, su rendimiento con objetos no vistos depende de lo bien que generalice a partir de sus datos de entrenamiento. En algunos casos, puede necesitar datos adicionales o un ajuste fino para obtener buenos resultados en tareas muy especializadas.
  • Sensible a la calidad de la información: La precisión del modelo puede verse afectada por imágenes o vídeos de baja calidad. Una entrada borrosa o mal iluminada puede reducir la capacidad del modelo para detectar objetos con precisión, por lo que una entrada de alta calidad es importante para un rendimiento óptimo.

Principales conclusiones

YOLOE aporta más flexibilidad a la visión por ordenador al permitir a los usuarios guiar la detección con indicaciones de texto o imágenes. Funciona bien en situaciones reales en las que las escenas cambian rápidamente y el reentrenamiento no es una opción.

Desde la gestión de equipajes hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se hace más accesible, modelos como YOLOE ayudan a más sectores a utilizar la tecnología de visión de forma práctica y eficiente.

Únase a nuestra comunidad y explore nuestro repositorio de GitHub para obtener más información sobre las innovaciones en IA. Descubra los últimos avances en áreas como la IA en el comercio minorista y la visión por ordenador en la sanidad en nuestras páginas de soluciones. Eche un vistazo a nuestras opciones de licencia y empiece a utilizar la visión por ordenador hoy mismo.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles