Cheque verde
Enlace copiado en el portapapeles

¿Qué es YOLOE? Llevar más allá los modelos de visión por ordenador

Descubre cómo YOLOE te permite encontrar objetos con una simple indicación o foto. Permite una visión por ordenador más inteligente y rápida, sin necesidad de reentrenar o ajustar los modelos.

La detección de objetos es una tarea clave de la visión por ordenador, cuyo objetivo es identificar y localizar objetos en imágenes o vídeos. Es una parte crucial de la visión por ordenador, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un coche en una foto o a localizar a una persona en un vídeo.

Una de las series de modelos más conocidas para tareas de visión por ordenador como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para ofrecer velocidad y precisión, los modelos YOLO han mejorado continuamente con el tiempo. Por ejemplo, una de las últimas versiones Ultralytics YOLO11se comporta bien en situaciones del mundo real, proporcionando resultados precisos incluso en entornos más complejos.

Impulsando aún más este progreso, un nuevo modelo llamado YOLOE pretende ampliar las capacidades de los modelos YOLO . A diferencia de los modelos tradicionales, que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir sencillas instrucciones de texto o imagen para detectar objetos que no ha visto antes, lo que le hace mucho más adaptable a entornos cambiantes.

En este artículo, veremos más de cerca qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puedes empezar a utilizarlo hoy mismo. ¡Vamos a empezar!

Una visión general de YOLOE

YOLOE es un modelo de visión por ordenador que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que diferencia a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto. 

Mientras que la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE te permite especificar qué buscar mediante una breve descripción o una imagen de ejemplo. Por ejemplo, si buscas una "mochila verde", puedes escribir esa descripción o mostrar al modelo una foto, y YOLOE la localizará dentro de la escena.

Además, incluso sin ninguna indicación, YOLOE puede detectar por sí solo muchos objetos cotidianos. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección de disparo cero. Es especialmente útil en entornos dinámicos en los que la tarea o los objetos de interés pueden cambiar inesperadamente.

Fig. 1. Un vistazo a las capacidades de YOLOE.

Características principales de YOLOE

YOLOE admite una amplia gama de funciones diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Gracias a su capacidad para manejar entradas estructuradas y no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos. 

Éstas son algunas de las características clave que aporta el modelo:

  • Detección basada en instrucciones: YOLOE puede buscar objetos basándose en una breve indicación de texto o en una imagen de ejemplo. Esto significa que no necesitas volver a entrenar el modelo cada vez que cambie tu tarea; sólo tienes que describir o mostrar al modelo lo que estás buscando.
  • Segmentación de instancias: Además de dibujar cuadros delimitadores alrededor de los objetos, YOLOE puede delinear su forma exacta utilizando la segmentación de instancias. Esto es especialmente útil cuando los objetos se superponen o cuando necesitas conocer los límites precisos de un objeto.
  • Reconocimiento de objetos sin instrucciones: YOLOE puede reconocer objetos incluso sin instrucciones específicas. Utiliza un conjunto de descripciones preaprendidas para identificar rápidamente los objetos, haciendo que el proceso sea más rápido y eficaz.

Comparación del YOLOE con otros modelos YOLO

Ahora que entendemos mejor qué es YOLOE, echemos un vistazo a algunos modelos similares de la familia YOLO . 

A medida que ha progresado la visión por ordenador, también lo han hecho los modelos YOLO . Por ejemplo Ultralytics YOLOv8 aportó compatibilidad con nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento de una gama más amplia de tareas.

Además, YOLO se lanzó en enero de 2024 e introdujo la posibilidad de utilizar indicaciones escritas, que permitían a los usuarios describir los objetos que querían encontrar. Aunque YOLO era una gran opción para la detección de tiros cero, carecía de funciones como la segmentación de instancias y el soporte de indicaciones visuales. 

YOLOE se basa en YOLO añadiendo estas capacidades, mejorando la flexibilidad y el rendimiento, y ofreciendo una herramienta más impactante para las aplicaciones de visión por ordenador del mundo real.

Fig. 2. Tanto YOLO como YOLOE admiten la detección de disparo cero.

Utilizar YOLOE con el paquetePython Ultralytics

Tanto si quieres detectar objetos concretos como explorar todo lo que hay en una imagen, empezar a utilizar YOLOE es muy sencillo. Este modelo es compatible con el paquetePython Ultralytics , lo que facilita su integración en tus proyectos. A continuación, vamos a ver cómo utilizarlo.

Instalar el paquete Ultralytics

El primer paso es instalar el paqueteUltralytics Python utilizando un gestor de paquetes como "pip". Puedes hacerlo ejecutando el comando "pip install ultralytics" en tu terminal o símbolo del sistema.

Una vez instalado el paquete, tendrás todo lo que necesitas para cargar el modelo, hacer predicciones y experimentar con distintos modos de detección. Si te encuentras con algún problema durante la instalación, la documentación oficial Ultralytics ofrece una útil sección de resolución de problemas

Hay varias formas distintas de utilizar YOLOE para ejecutar predicciones. Ejecutar predicciones significa utilizar el modelo entrenado para identificar y localizar objetos dentro de imágenes o vídeos. Estos métodos diferentes te permiten personalizar la forma de interactuar con el modelo en función de tus necesidades específicas.

Analicemos cada uno de estos métodos, uno por uno.

Detectar objetos específicos con indicaciones de texto o imagen

YOLOE puede detectar objetos basándose en una breve descripción de texto. Por ejemplo, si buscas un caballo en movimiento, puedes utilizar una indicación como "caballo caminando".

Para empezar, primero carga el modelo YOLOE preentrenado y establece tu prompt (la descripción de lo que quieres que busque el modelo) como se muestra en el fragmento de código siguiente.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una vez configurados el modelo y el indicador, puedes ejecutar el modelo en una imagen o un vídeo. Sustituye la ruta del archivo en el código por la ruta de tu archivo de imagen o vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Esto mostrará la imagen con el objeto detectado claramente marcado según tu indicación. Puedes cambiar la indicación para buscar objetos diferentes, como "maleta roja", "bicicleta" o "cebra", según lo que estés buscando.

Fig. 3. Ejemplo de uso de YOLOE para detectar objetos concretos mediante una indicación de texto.

Del mismo modo, puedes utilizar una imagen para incitar a YOLOE con el paquetePython Ultralytics . En el modo de consulta visual, el modelo utiliza la imagen para encontrar objetos de aspecto similar en otra escena. Esto es especialmente útil para objetos difíciles de describir o que carecen de etiquetas claras. 

Para explorar el código de esto con más detalle, puedes consultar la documentaciónUltralytics .

Detección general de objetos mediante YOLOE

En algunos casos, puede que no sepas exactamente qué buscar, o que no estés buscando un objeto concreto. Ahí es donde resulta útil el modo sin pregunta. 

Con esta opción, no necesitas escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí mismo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.

Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Tanto si estás escaneando una habitación abarrotada de gente como si estás revisando secuencias con mucha actividad, el modo sin instrucciones te permite echar un vistazo rápido a lo que hay en una imagen. 

Puedes utilizar el siguiente código para ejecutar YOLOE en modo sin consulta. Primero se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos que contiene. Por último, se muestran los resultados y se resaltan los objetos detectados. 

Asegúrate de sustituir la ruta del archivo por la ruta real de tu imagen.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detectar en el modo sin indicador.

Fig. 4. Utilizando YOLOE en modo sin avisos.

Aplicaciones en tiempo real de YOLOE

La capacidad de YOLOE para responder a indicaciones tanto de texto como de imagen lo convierte en una herramienta fiable para aplicaciones en tiempo real. Su flexibilidad es especialmente útil en entornos de ritmo rápido, donde el tiempo y la precisión son esenciales. 

Exploremos algunos ejemplos reales de cómo puede utilizarse el YOLOE.

Mejora de la gestión de equipajes: Detección de equipajes en tiempo real

En los aeropuertos más concurridos, localizar un equipaje concreto puede ser complicado, sobre todo cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear vídeos en directo e identificando rápidamente artículos basándose en indicaciones sencillas como "bolsa roja". 

Si falta una maleta o se extravía, el personal puede cambiar fácilmente la indicación para buscar un artículo diferente, como una "maleta negra". Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin tener que revisar largas horas de grabación ni volver a entrenar al modelo, haciendo que la gestión del equipaje y la resolución de los problemas de equipaje extraviado sean mucho más rápidas y eficientes.

Vigilancia de espacios públicos con YOLOE

Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías abarrotados, suelen incluir una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real utilizando el modo sin avisos, detectando automáticamente objetos como bolsas, mesas o bicicletas sin necesidad de instrucciones específicas.

Fig. 5. YOLOE puede detectar varios objetos en un espacio público concurrido.

Esto es especialmente útil para que los equipos de seguridad detecten objetos desatendidos o sigan el movimiento de la multitud. La capacidad de YOLOE para detectar varios objetos a la vez facilita la gestión de espacios públicos durante eventos o periodos de gran afluencia, ayudando a los equipos a mantenerse informados y reaccionar.

Pros y contras de YOLOE

He aquí algunas de las principales ventajas de utilizar YOLOE para aplicaciones de visión por ordenador:

  • Rendimiento en tiempo real: YOLOE está optimizado para un procesamiento rápido y eficaz, lo que permite la detección en tiempo real, incluso en entornos dinámicos como transmisiones de vídeo en directo o espacios públicos muy concurridos.
  • Escalabilidad: YOLOE es escalable y funciona bien para una amplia variedad de aplicaciones, desde seguridad y vigilancia hasta comercio minorista, asistencia sanitaria y vehículos autónomos.
  • Fácil de utilizar: Como YOLOE es compatible con el paquetePython Ultralytics , es fácil integrarlo en tus proyectos de visión por ordenador existentes.

Sin embargo, hay que tener en cuenta algunas limitaciones al utilizar YOLOE. Aquí tienes un par de factores a tener en cuenta:

  • Requiere datos de entrenamiento suficientes: Aunque YOLOE admite la detección sin disparos, su rendimiento con objetos no vistos depende de lo bien que generalice a partir de sus datos de entrenamiento. En algunos casos, puede necesitar datos adicionales o un ajuste fino para rendir bien en tareas muy especializadas.
  • Sensible a la calidad de la entrada: La precisión del modelo puede verse afectada por imágenes o vídeos de baja calidad. Una entrada borrosa o mal iluminada puede reducir la capacidad del modelo para detectar objetos con precisión, por lo que una entrada de alta calidad es importante para un rendimiento óptimo.

Puntos clave

YOLOE aporta más flexibilidad a la visión por ordenador al permitir que los usuarios guíen la detección con indicaciones de texto o imágenes. Funciona bien en situaciones del mundo real en las que las escenas cambian rápidamente y el reentrenamiento no es una opción.

Desde la manipulación de equipajes hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se hace más accesible, modelos como YOLOE ayudan a más industrias a utilizar la tecnología de visión de forma práctica y eficiente.

Únete a nuestra comunidad y explora nuestro repositorio de GitHub para saber más sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión por ordenador en la sanidad en nuestras páginas de soluciones. Echa un vistazo a nuestras opciones de licencia y ¡empieza hoy mismo con la visión por ordenador!

Logotipo de LinkedInLogotipo de TwitterLogotipo de FacebookSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático