Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.
Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.
La detección de objetos es una tarea clave de la visión artificial, donde el objetivo es identificar y localizar objetos en imágenes o videos. Es una parte crucial de la visión artificial, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un automóvil en una imagen o detectar a una persona en una transmisión de video.
Una de las series de modelos más conocidas que soportan tareas de visión artificial como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para la velocidad y la precisión, los modelos YOLO han mejorado continuamente con el tiempo. Por ejemplo, una de las últimas versiones, Ultralytics YOLO11, funciona bien en situaciones del mundo real, proporcionando resultados precisos incluso en entornos más complejos.
Impulsando aún más este progreso, un nuevo modelo llamado YOLOE tiene como objetivo ampliar las capacidades de los modelos YOLO. A diferencia de los modelos tradicionales que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir simples indicaciones de texto o imagen para detectar objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.
En este artículo, analizaremos más de cerca qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puede empezar a usarlo hoy mismo. ¡Empecemos!
YOLOE es un modelo de visión artificial que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que distingue a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto.
Si bien la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE le permite especificar qué buscar utilizando una breve descripción o una imagen de ejemplo. Por ejemplo, si está buscando una "mochila verde", puede escribir esa descripción o mostrarle al modelo una foto, y YOLOE la localizará dentro de la escena.
Además, incluso sin ningún *prompt*, YOLOE puede detectar muchos objetos cotidianos por sí solo. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección zero-shot. Es particularmente útil en entornos dinámicos donde la tarea u objetos de interés pueden cambiar inesperadamente.

YOLOE soporta una amplia gama de características diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Con su capacidad para manejar tanto entradas estructuradas como no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos.
Estas son algunas de las características clave que aporta el modelo:
Ahora que tenemos una mejor comprensión de lo que es YOLOE, echemos un vistazo a algunos de los modelos de la familia YOLO que son similares.
A medida que la visión artificial ha progresado, también lo han hecho los modelos YOLO. Por ejemplo, Ultralytics YOLOv8 trajo soporte para nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento para una gama más amplia de tareas.
Además, YOLO-World se lanzó en enero de 2024 e introdujo la capacidad de utilizar indicaciones escritas, lo que permite a los usuarios describir los objetos que desean encontrar. Si bien YOLO-World era una gran opción para la detección zero-shot, carecía de características como la segmentación de instancias y el soporte de indicaciones visuales.
YOLOE se basa en YOLO-World al agregar estas capacidades, mejorar la flexibilidad y el rendimiento, y ofrecer una herramienta más impactante para las aplicaciones de visión artificial del mundo real.

Tanto si quieres detectar objetos específicos como explorar todo lo que hay en una imagen, empezar con YOLOE es sencillo. Este modelo es compatible con el paquete Ultralytics Python, lo que facilita su integración en tus proyectos. A continuación, vamos a ver cómo usarlo.
El primer paso es instalar el paquete de Python de Ultralytics utilizando un gestor de paquetes como ‘pip’. Puede hacerlo ejecutando el comando “pip install ultralytics” en su terminal o símbolo del sistema.
Una vez instalado el paquete, tendrá todo lo necesario para cargar el modelo, hacer predicciones y experimentar con diferentes modos de detección. Si encuentra algún problema durante la instalación, la documentación oficial de Ultralytics ofrece una útil sección de solución de problemas.
Hay diferentes maneras de usar YOLOE para ejecutar predicciones. Ejecutar predicciones significa usar el modelo entrenado para identificar y localizar objetos dentro de imágenes o videos. Estos diferentes métodos le permiten personalizar cómo interactúa con el modelo según sus necesidades específicas.
Analicemos cada uno de estos métodos, uno a la vez.
YOLOE puede detectar objetos basándose en una breve descripción de texto. Por ejemplo, si está buscando un caballo en movimiento, puede usar un mensaje como "caballo caminando".
Para empezar, primero cargue el modelo YOLOE pre-entrenado y establezca su prompt (la descripción de lo que quiere que el modelo busque) como se muestra en el fragmento de código a continuación.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una vez que tu modelo y tu prompt estén configurados, puedes ejecutar el modelo en una imagen o vídeo. Reemplaza la ruta del archivo en el código con la ruta a tu archivo de imagen o vídeo:
results = model.predict("path/to/your/image.jpg")
results[0].show()Esto mostrará la imagen con el objeto detectado claramente marcado según tu indicación. Puedes cambiar la indicación para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", dependiendo de lo que estés buscando.

Del mismo modo, puede utilizar una imagen para solicitar YOLOE con el paquete de Python de Ultralytics. En el modo de solicitud visual, el modelo utiliza la imagen para encontrar elementos de aspecto similar en otra escena. Esto es particularmente útil para objetos que son difíciles de describir o que carecen de etiquetas claras.
Para explorar el código con más detalle, puede consultar la documentación de Ultralytics.
En algunos casos, es posible que no sepa exactamente qué buscar, o que no esté buscando un objeto en particular. Ahí es donde el modo sin indicaciones resulta útil.
Con esta opción, no necesita escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí solo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.
Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Ya sea que esté escaneando una habitación llena de gente o revisando imágenes con mucha actividad, el modo sin indicaciones le brinda una vista rápida de lo que está presente en una imagen.
Puede utilizar el siguiente código para ejecutar YOLOE en modo libre. Primero, se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos en ella. Finalmente, se muestran los resultados y se resaltan los objetos detectados.
Asegúrate de reemplazar la ruta del archivo con la ruta real de tu imagen.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detectar en modo sin indicaciones.

La capacidad de YOLOE para responder a indicaciones de texto e imagen lo convierte en una herramienta confiable para aplicaciones en tiempo real. Su flexibilidad es particularmente útil en entornos de ritmo rápido donde el tiempo y la precisión son esenciales.
Exploremos algunos ejemplos del mundo real de cómo se puede utilizar YOLOE.
En los aeropuertos concurridos, localizar un equipaje específico puede ser un desafío, especialmente cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear videos en vivo e identificando rápidamente artículos basados en indicaciones simples como “bolsa roja”.
Si falta una maleta o se extravía, el personal puede cambiar fácilmente el *prompt* para buscar un artículo diferente, como una “maleta negra”. Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin tener que revisar largas horas de metraje o reentrenar el modelo, lo que hace que la gestión del equipaje y la resolución de problemas de equipaje perdido sean mucho más rápidos y eficientes.
Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías concurridas, a menudo incluyen una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real utilizando el modo sin indicaciones, detectando automáticamente elementos como bolsos, mesas o bicicletas sin necesidad de instrucciones específicas.

Esto es particularmente útil para que los equipos de seguridad detecten artículos desatendidos o rastreen el movimiento de multitudes. La capacidad de YOLOE para detectar múltiples objetos a la vez facilita la gestión de espacios públicos durante eventos o períodos de mucha actividad, lo que ayuda a los equipos a mantenerse informados y receptivos.
Estos son algunos de los principales beneficios de usar YOLOE para aplicaciones de visión artificial:
Sin embargo, hay algunas limitaciones que se deben tener en cuenta al usar YOLOE. Estos son un par de factores a considerar:
YOLOE aporta más flexibilidad a la visión artificial al permitir a los usuarios guiar la detección con texto o indicaciones de imagen. Funciona bien en situaciones del mundo real donde las escenas cambian rápidamente y el reentrenamiento no es una opción.
Desde el manejo de equipaje hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se vuelve más accesible, modelos como YOLOE están ayudando a más industrias a utilizar la tecnología de visión de forma práctica y eficiente.
Únete a nuestra comunidad y explora nuestro repositorio en GitHub para obtener más información sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión artificial en la atención médica en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y ¡empieza hoy mismo con la visión artificial!