Yolo Vision Shenzhen
Shenzhen
Únete ahora

¿Qué es YOLOE? Llevando los modelos de visión artificial más allá

Abirami Vina

5 minutos de lectura

8 de mayo de 2025

Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.

La detección de objetos es una tarea clave de la visión artificial, donde el objetivo es identificar y localizar objetos en imágenes o videos. Es una parte crucial de la visión artificial, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un automóvil en una imagen o detectar a una persona en una transmisión de video.

Una de las series de modelos más conocidas para tareas de visión por ordenador como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para ofrecer velocidad y precisión, los modelos YOLO no han dejado de mejorar con el tiempo. Por ejemplo, una de las últimas versiones, Ultralytics YOLO11obtiene buenos resultados en situaciones reales, incluso en entornos complejos.

Un nuevo modelo, denominado YOLOE, pretende ampliar las capacidades de los modelos YOLO . A diferencia de los modelos tradicionales, que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir sencillas instrucciones de texto o imagen para detect objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.

En este artículo analizaremos en detalle qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puede empezar a utilizarlo hoy mismo. Empecemos.

Una visión general de YOLOE

YOLOE es un modelo de visión artificial que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que distingue a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto. 

Si bien la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE le permite especificar qué buscar utilizando una breve descripción o una imagen de ejemplo. Por ejemplo, si está buscando una "mochila verde", puede escribir esa descripción o mostrarle al modelo una foto, y YOLOE la localizará dentro de la escena.

Además, incluso sin ninguna indicación, YOLOE puede detect por sí solo muchos objetos cotidianos. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección de disparo cero. Resulta especialmente útil en entornos dinámicos en los que la tarea o los objetos de interés pueden cambiar inesperadamente.

Fig. 1. Una mirada a las capacidades de YOLOE.

Características principales de YOLOE

YOLOE soporta una amplia gama de características diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Con su capacidad para manejar tanto entradas estructuradas como no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos. 

Estas son algunas de las características clave que aporta el modelo:

  • Detección basada en prompts: YOLOE puede buscar objetos basándose en un breve texto o en una imagen de ejemplo. Esto significa que no es necesario volver a entrenar el modelo cada vez que cambia la tarea; basta con describir o mostrar al modelo lo que se busca.
  • Segmentación de instancias: Además de dibujar cuadros delimitadores alrededor de los objetos, YOLOE puede delinear su forma exacta mediante la segmentación de instancias. Esto es especialmente útil cuando los objetos se superponen o cuando se necesita conocer los límites precisos de un objeto.
  • Reconocimiento de objetos sin prompts: YOLOE puede reconocer objetos incluso sin instrucciones específicas. Utiliza un conjunto de descripciones preaprendidas para identificar rápidamente los objetos, lo que hace que el proceso sea más rápido y eficiente.

Comparación del YOLOE con otros modelos YOLO

Ahora que entendemos mejor qué es YOLOE, echemos un vistazo a algunos modelos similares de la familia YOLO . 

A medida que ha progresado la visión por ordenador, también lo han hecho los modelos YOLO . Por ejemplo, Ultralytics YOLOv8 aportó compatibilidad con nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento de una gama más amplia de tareas.

Además, YOLO se lanzó en enero de 2024 e introdujo la posibilidad de utilizar instrucciones escritas para que los usuarios describieran los objetos que querían encontrar. Aunque YOLO era una gran opción para la detección de disparos cero, carecía de funciones como la segmentación de instancias y el soporte de indicaciones visuales. 

YOLOE se basa en YOLO añadiendo estas capacidades, mejorando la flexibilidad y el rendimiento, y ofreciendo una herramienta más impactante para las aplicaciones de visión por ordenador del mundo real.

Fig. 2. Tanto YOLO como YOLOE admiten la detección de disparo cero.

Utilización de YOLOE con el paquete Ultralytics Python

Tanto si desea detect objetos específicos como explorar todo lo que hay en una imagen, empezar a utilizar YOLOE es muy sencillo. Este modelo es compatible con el paquete Ultralytics Python , lo que facilita su integración en sus proyectos. A continuación, vamos a ver cómo utilizarlo.

Instalación del paquete Ultralytics

El primer paso es instalar el paqueteUltralytics Python utilizando un gestor de paquetes como 'pip'. Puede hacerlo ejecutando el comando "pip install ultralytics" en su terminal o símbolo del sistema.

Una vez instalado el paquete, dispondrá de todo lo necesario para cargar el modelo, realizar predicciones y experimentar con distintos modos de detección. Si te encuentras con algún problema durante la instalación, la documentación oficial Ultralytics ofrece una útil sección de resolución de problemas

Hay diferentes maneras de usar YOLOE para ejecutar predicciones. Ejecutar predicciones significa usar el modelo entrenado para identificar y localizar objetos dentro de imágenes o videos. Estos diferentes métodos le permiten personalizar cómo interactúa con el modelo según sus necesidades específicas.

Analicemos cada uno de estos métodos, uno a la vez.

Detección de objetos específicos con indicaciones de texto o imagen

YOLOE puede detect objetos basándose en una breve descripción de texto. Por ejemplo, si buscas un caballo en movimiento, puedes utilizar una indicación como "caballo caminando".

Para empezar, primero cargue el modelo YOLOE pre-entrenado y establezca su prompt (la descripción de lo que quiere que el modelo busque) como se muestra en el fragmento de código a continuación.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una vez que tu modelo y tu prompt estén configurados, puedes ejecutar el modelo en una imagen o vídeo. Reemplaza la ruta del archivo en el código con la ruta a tu archivo de imagen o vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Esto mostrará la imagen con el objeto detectado claramente marcado según tu indicación. Puedes cambiar la indicación para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", dependiendo de lo que estés buscando.

Fig. 3. Ejemplo de utilización de YOLOE para detect objetos específicos mediante una indicación de texto.

Del mismo modo, puede utilizar una imagen para preguntar a YOLOE con el paquete Ultralytics Python . En el modo visual, el modelo utiliza la imagen para encontrar objetos similares en otra escena. Esto es especialmente útil para objetos difíciles de describir o que carecen de etiquetas claras. 

Para explorar el código con más detalle, puede consultar la documentaciónUltralytics .

Detección de objetos general utilizando YOLOE

En algunos casos, es posible que no sepa exactamente qué buscar, o que no esté buscando un objeto en particular. Ahí es donde el modo sin indicaciones resulta útil. 

Con esta opción, no necesita escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí solo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.

Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Ya sea que esté escaneando una habitación llena de gente o revisando imágenes con mucha actividad, el modo sin indicaciones le brinda una vista rápida de lo que está presente en una imagen. 

Puede utilizar el siguiente código para ejecutar YOLOE en modo libre. Primero, se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos en ella. Finalmente, se muestran los resultados y se resaltan los objetos detectados. 

Asegúrate de reemplazar la ruta del archivo con la ruta real de tu imagen.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detect en modo "prompt-free".

Fig. 4. Uso de YOLOE en modo sin indicaciones (prompt-free).

Aplicaciones en tiempo real de YOLOE

La capacidad de YOLOE para responder a indicaciones de texto e imagen lo convierte en una herramienta confiable para aplicaciones en tiempo real. Su flexibilidad es particularmente útil en entornos de ritmo rápido donde el tiempo y la precisión son esenciales. 

Exploremos algunos ejemplos del mundo real de cómo se puede utilizar YOLOE.

Mejora en la gestión de equipaje: detección de equipaje en tiempo real

En los aeropuertos concurridos, localizar un equipaje específico puede ser un desafío, especialmente cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear videos en vivo e identificando rápidamente artículos basados en indicaciones simples como “bolsa roja”. 

Si falta una maleta o se extravía, el personal puede cambiar fácilmente el *prompt* para buscar un artículo diferente, como una “maleta negra”. Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin tener que revisar largas horas de metraje o reentrenar el modelo, lo que hace que la gestión del equipaje y la resolución de problemas de equipaje perdido sean mucho más rápidos y eficientes.

Monitoreo de espacios públicos con YOLOE

Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías concurridas, a menudo incluyen una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real utilizando el modo sin indicaciones, detectando automáticamente elementos como bolsos, mesas o bicicletas sin necesidad de instrucciones específicas.

Fig. 5. YOLOE puede detect varios objetos en un espacio público concurrido.

Esto resulta especialmente útil para que los equipos de seguridad detecten objetos desatendidos o track movimiento de la multitud. La capacidad de YOLOE para detect varios objetos a la vez facilita la gestión de espacios públicos durante eventos o periodos de gran afluencia, ayudando a los equipos a mantenerse informados y reaccionar.

Pros y contras de YOLOE

Estos son algunos de los principales beneficios de usar YOLOE para aplicaciones de visión artificial:

  • Rendimiento en tiempo real: YOLOE está optimizado para un procesamiento rápido y eficiente, lo que permite la detección en tiempo real, incluso en entornos dinámicos como transmisiones de video en vivo o espacios públicos concurridos.
  • Escalabilidad: YOLOE es escalable y funciona bien para una amplia variedad de aplicaciones, desde la seguridad y la vigilancia hasta el comercio minorista, la atención médica y los vehículos autónomos.
  • Fácil de utilizar: Dado que YOLOE es compatible con el paquete Ultralytics Python , es fácil de integrar en sus proyectos de visión por ordenador existentes.

Sin embargo, hay algunas limitaciones que se deben tener en cuenta al usar YOLOE. Estos son un par de factores a considerar:

  • Requiere suficientes datos de entrenamiento: Aunque YOLOE admite la detección zero-shot, su rendimiento en objetos no vistos depende de lo bien que generalice a partir de sus datos de entrenamiento. En algunos casos, puede necesitar datos adicionales o un ajuste fino para rendir bien en tareas muy especializadas.
  • Sensible a la calidad de la información: La precisión del modelo puede verse afectada por imágenes o vídeos de baja calidad. Una entrada borrosa o mal iluminada puede reducir la capacidad del modelo para detect objetos con precisión, por lo que una entrada de alta calidad es importante para un rendimiento óptimo.

Conclusiones clave

YOLOE aporta más flexibilidad a la visión artificial al permitir a los usuarios guiar la detección con texto o indicaciones de imagen. Funciona bien en situaciones del mundo real donde las escenas cambian rápidamente y el reentrenamiento no es una opción.

Desde el manejo de equipaje hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se vuelve más accesible, modelos como YOLOE están ayudando a más industrias a utilizar la tecnología de visión de forma práctica y eficiente.

Únete a nuestra comunidad y explora nuestro repositorio en GitHub para obtener más información sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión artificial en la atención médica en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y ¡empieza hoy mismo con la visión artificial!

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis