Yolo Vision Shenzhen
Shenzhen
Únete ahora

¿Qué es YOLOE? Llevando los modelos de visión artificial más allá

Abirami Vina

5 minutos de lectura

8 de mayo de 2025

Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.

La detección de objetos es una tarea clave de la visión artificial, donde el objetivo es identificar y localizar objetos en imágenes o videos. Es una parte crucial de la visión artificial, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un automóvil en una imagen o detectar a una persona en una transmisión de video.

Una de las series de modelos más conocidas que soportan tareas de visión artificial como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para la velocidad y la precisión, los modelos YOLO han mejorado continuamente con el tiempo. Por ejemplo, una de las últimas versiones, Ultralytics YOLO11, funciona bien en situaciones del mundo real, proporcionando resultados precisos incluso en entornos más complejos.

Impulsando aún más este progreso, un nuevo modelo llamado YOLOE tiene como objetivo ampliar las capacidades de los modelos YOLO. A diferencia de los modelos tradicionales que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir simples indicaciones de texto o imagen para detectar objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.

En este artículo, analizaremos más de cerca qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puede empezar a usarlo hoy mismo. ¡Empecemos!

Una visión general de YOLOE

YOLOE es un modelo de visión artificial que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que distingue a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto. 

Si bien la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE le permite especificar qué buscar utilizando una breve descripción o una imagen de ejemplo. Por ejemplo, si está buscando una "mochila verde", puede escribir esa descripción o mostrarle al modelo una foto, y YOLOE la localizará dentro de la escena.

Además, incluso sin ningún *prompt*, YOLOE puede detectar muchos objetos cotidianos por sí solo. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección zero-shot. Es particularmente útil en entornos dinámicos donde la tarea u objetos de interés pueden cambiar inesperadamente.

Fig. 1. Una mirada a las capacidades de YOLOE.

Características principales de YOLOE

YOLOE soporta una amplia gama de características diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Con su capacidad para manejar tanto entradas estructuradas como no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos. 

Estas son algunas de las características clave que aporta el modelo:

  • Detección basada en prompts: YOLOE puede buscar objetos basándose en un breve texto o en una imagen de ejemplo. Esto significa que no es necesario volver a entrenar el modelo cada vez que cambia la tarea; basta con describir o mostrar al modelo lo que se busca.
  • Segmentación de instancias: Además de dibujar cuadros delimitadores alrededor de los objetos, YOLOE puede delinear su forma exacta mediante la segmentación de instancias. Esto es especialmente útil cuando los objetos se superponen o cuando se necesita conocer los límites precisos de un objeto.
  • Reconocimiento de objetos sin prompts: YOLOE puede reconocer objetos incluso sin instrucciones específicas. Utiliza un conjunto de descripciones preaprendidas para identificar rápidamente los objetos, lo que hace que el proceso sea más rápido y eficiente.

Comparación de YOLOE con otros modelos YOLO

Ahora que tenemos una mejor comprensión de lo que es YOLOE, echemos un vistazo a algunos de los modelos de la familia YOLO que son similares. 

A medida que la visión artificial ha progresado, también lo han hecho los modelos YOLO. Por ejemplo, Ultralytics YOLOv8 trajo soporte para nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento para una gama más amplia de tareas.

Además, YOLO-World se lanzó en enero de 2024 e introdujo la capacidad de utilizar indicaciones escritas, lo que permite a los usuarios describir los objetos que desean encontrar. Si bien YOLO-World era una gran opción para la detección zero-shot, carecía de características como la segmentación de instancias y el soporte de indicaciones visuales. 

YOLOE se basa en YOLO-World al agregar estas capacidades, mejorar la flexibilidad y el rendimiento, y ofrecer una herramienta más impactante para las aplicaciones de visión artificial del mundo real.

Fig 2. Tanto YOLO-World como YOLOE admiten la detección zero-shot.

Uso de YOLOE con el paquete de Python de Ultralytics

Tanto si quieres detectar objetos específicos como explorar todo lo que hay en una imagen, empezar con YOLOE es sencillo. Este modelo es compatible con el paquete Ultralytics Python, lo que facilita su integración en tus proyectos. A continuación, vamos a ver cómo usarlo.

Instalando el paquete Ultralytics

El primer paso es instalar el paquete de Python de Ultralytics utilizando un gestor de paquetes como ‘pip’. Puede hacerlo ejecutando el comando “pip install ultralytics” en su terminal o símbolo del sistema.

Una vez instalado el paquete, tendrá todo lo necesario para cargar el modelo, hacer predicciones y experimentar con diferentes modos de detección. Si encuentra algún problema durante la instalación, la documentación oficial de Ultralytics ofrece una útil sección de solución de problemas

Hay diferentes maneras de usar YOLOE para ejecutar predicciones. Ejecutar predicciones significa usar el modelo entrenado para identificar y localizar objetos dentro de imágenes o videos. Estos diferentes métodos le permiten personalizar cómo interactúa con el modelo según sus necesidades específicas.

Analicemos cada uno de estos métodos, uno a la vez.

Detección de objetos específicos con indicaciones de texto o imagen

YOLOE puede detectar objetos basándose en una breve descripción de texto. Por ejemplo, si está buscando un caballo en movimiento, puede usar un mensaje como "caballo caminando".

Para empezar, primero cargue el modelo YOLOE pre-entrenado y establezca su prompt (la descripción de lo que quiere que el modelo busque) como se muestra en el fragmento de código a continuación.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Una vez que tu modelo y tu prompt estén configurados, puedes ejecutar el modelo en una imagen o vídeo. Reemplaza la ruta del archivo en el código con la ruta a tu archivo de imagen o vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Esto mostrará la imagen con el objeto detectado claramente marcado según tu indicación. Puedes cambiar la indicación para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", dependiendo de lo que estés buscando.

Fig. 3. Un ejemplo del uso de YOLOE para detectar objetos específicos utilizando un mensaje de texto.

Del mismo modo, puede utilizar una imagen para solicitar YOLOE con el paquete de Python de Ultralytics. En el modo de solicitud visual, el modelo utiliza la imagen para encontrar elementos de aspecto similar en otra escena. Esto es particularmente útil para objetos que son difíciles de describir o que carecen de etiquetas claras. 

Para explorar el código con más detalle, puede consultar la documentación de Ultralytics.

Detección de objetos general utilizando YOLOE

En algunos casos, es posible que no sepa exactamente qué buscar, o que no esté buscando un objeto en particular. Ahí es donde el modo sin indicaciones resulta útil. 

Con esta opción, no necesita escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí solo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.

Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Ya sea que esté escaneando una habitación llena de gente o revisando imágenes con mucha actividad, el modo sin indicaciones le brinda una vista rápida de lo que está presente en una imagen. 

Puede utilizar el siguiente código para ejecutar YOLOE en modo libre. Primero, se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos en ella. Finalmente, se muestran los resultados y se resaltan los objetos detectados. 

Asegúrate de reemplazar la ruta del archivo con la ruta real de tu imagen.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detectar en modo sin indicaciones.

Fig. 4. Uso de YOLOE en modo sin indicaciones (prompt-free).

Aplicaciones en tiempo real de YOLOE

La capacidad de YOLOE para responder a indicaciones de texto e imagen lo convierte en una herramienta confiable para aplicaciones en tiempo real. Su flexibilidad es particularmente útil en entornos de ritmo rápido donde el tiempo y la precisión son esenciales. 

Exploremos algunos ejemplos del mundo real de cómo se puede utilizar YOLOE.

Mejora en la gestión de equipaje: detección de equipaje en tiempo real

En los aeropuertos concurridos, localizar un equipaje específico puede ser un desafío, especialmente cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear videos en vivo e identificando rápidamente artículos basados en indicaciones simples como “bolsa roja”. 

Si falta una maleta o se extravía, el personal puede cambiar fácilmente el *prompt* para buscar un artículo diferente, como una “maleta negra”. Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin tener que revisar largas horas de metraje o reentrenar el modelo, lo que hace que la gestión del equipaje y la resolución de problemas de equipaje perdido sean mucho más rápidos y eficientes.

Monitoreo de espacios públicos con YOLOE

Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías concurridas, a menudo incluyen una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real utilizando el modo sin indicaciones, detectando automáticamente elementos como bolsos, mesas o bicicletas sin necesidad de instrucciones específicas.

Fig. 5. YOLOE puede detectar varios objetos en un espacio público concurrido.

Esto es particularmente útil para que los equipos de seguridad detecten artículos desatendidos o rastreen el movimiento de multitudes. La capacidad de YOLOE para detectar múltiples objetos a la vez facilita la gestión de espacios públicos durante eventos o períodos de mucha actividad, lo que ayuda a los equipos a mantenerse informados y receptivos.

Pros y contras de YOLOE

Estos son algunos de los principales beneficios de usar YOLOE para aplicaciones de visión artificial:

  • Rendimiento en tiempo real: YOLOE está optimizado para un procesamiento rápido y eficiente, lo que permite la detección en tiempo real, incluso en entornos dinámicos como transmisiones de video en vivo o espacios públicos concurridos.
  • Escalabilidad: YOLOE es escalable y funciona bien para una amplia variedad de aplicaciones, desde la seguridad y la vigilancia hasta el comercio minorista, la atención médica y los vehículos autónomos.
  • Fácil de usar: Dado que YOLOE es compatible con el paquete de Python de Ultralytics, es fácil de integrar en sus proyectos de visión artificial existentes.

Sin embargo, hay algunas limitaciones que se deben tener en cuenta al usar YOLOE. Estos son un par de factores a considerar:

  • Requiere suficientes datos de entrenamiento: Aunque YOLOE admite la detección zero-shot, su rendimiento en objetos no vistos depende de lo bien que generalice a partir de sus datos de entrenamiento. En algunos casos, puede necesitar datos adicionales o un ajuste fino para rendir bien en tareas muy especializadas.
  • Sensible a la calidad de la entrada: La precisión del modelo puede verse afectada por imágenes o videos de baja calidad. Una entrada borrosa o con poca luz puede reducir la capacidad del modelo para detectar objetos con precisión, por lo que una entrada de alta calidad es importante para un rendimiento óptimo.

Conclusiones clave

YOLOE aporta más flexibilidad a la visión artificial al permitir a los usuarios guiar la detección con texto o indicaciones de imagen. Funciona bien en situaciones del mundo real donde las escenas cambian rápidamente y el reentrenamiento no es una opción.

Desde el manejo de equipaje hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se vuelve más accesible, modelos como YOLOE están ayudando a más industrias a utilizar la tecnología de visión de forma práctica y eficiente.

Únete a nuestra comunidad y explora nuestro repositorio en GitHub para obtener más información sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión artificial en la atención médica en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y ¡empieza hoy mismo con la visión artificial!

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles