¿Qué es YOLOE? Llevando los modelos de visión artificial más lejos
Aprende cómo YOLOE te permite encontrar objetos usando un simple prompt o foto. Permite una visión artificial más inteligente y rápida sin reentrenar ni ajustar modelos.

La detección de objetos es una tarea clave de visión artificial, cuyo objetivo es identificar y localizar objetos en imágenes o vídeos. Es una parte crucial de la visión artificial, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un coche en una foto o localizar a una persona en una señal de vídeo.
Una de las series de modelos más conocidas que soportan tareas de visión artificial como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para la velocidad y la precisión, los modelos YOLO han mejorado continuamente con el tiempo. Por ejemplo, una de las versiones más recientes, Ultralytics YOLO11, funciona bien en situaciones del mundo real, proporcionando resultados precisos incluso en entornos más complejos.
Impulsando este progreso, un nuevo modelo llamado YOLOE tiene como objetivo ampliar las capacidades de los modelos YOLO. A diferencia de los modelos tradicionales que requieren reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir sencillas instrucciones de texto o imágenes para detectar objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.
En este artículo, analizaremos más de cerca lo que hace único a YOLOE, cómo se compara con anteriores modelos YOLO y cómo puedes empezar a utilizarlo hoy mismo. ¡Empecemos!
Link to this sectionUna visión general de YOLOE#
YOLOE es un modelo de visión artificial que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que diferencia a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto.
Mientras que la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE te permite especificar qué buscar utilizando una breve descripción o una imagen de ejemplo. Por ejemplo, si buscas una "mochila verde", puedes escribir esa descripción o mostrarle al modelo una foto, y YOLOE la localizará dentro de la escena.
Además, incluso sin ninguna instrucción, YOLOE puede detectar muchos objetos cotidianos por sí mismo. Esta capacidad de reconocer objetos que nunca antes había visto se denomina detección zero-shot. Es especialmente útil en entornos dinámicos donde la tarea o los objetos de interés pueden cambiar inesperadamente.

Fig 1. Un vistazo a las capacidades de YOLOE.
Link to this sectionCaracterísticas clave de YOLOE#
YOLOE admite una amplia gama de funciones diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Con su capacidad para manejar tanto entradas estructuradas como no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos.
Estas son algunas de las características clave que aporta el modelo:
- Detección basada en instrucciones: YOLOE puede buscar objetos basándose en una breve instrucción de texto o en una imagen de ejemplo. Esto significa que no necesitas volver a entrenar el modelo cada vez que cambie tu tarea; simplemente describe o muestra al modelo lo que buscas.
- Segmentación de instancias: Además de dibujar cuadros delimitadores alrededor de los objetos, YOLOE puede perfilar su forma exacta utilizando la segmentación de instancias. Esto es especialmente útil cuando los objetos se superponen o cuando necesitas conocer los límites precisos de un objeto.
- Reconocimiento de objetos sin instrucciones: YOLOE puede reconocer objetos incluso sin instrucciones específicas. Utiliza un conjunto de descripciones previamente aprendidas para identificar objetos rápidamente, haciendo el proceso más veloz y eficiente.
Link to this sectionComparación de YOLOE con otros modelos YOLO#
Ahora que entendemos mejor qué es YOLOE, echemos un vistazo a algunos de los modelos de la familia YOLO que son similares.
A medida que la visión artificial ha progresado, también lo han hecho los modelos YOLO. Por ejemplo, Ultralytics YOLOv8 introdujo el soporte para nuevas tareas como la segmentación y la clasificación, mientras que versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento para una gama más amplia de tareas.
Además, YOLO-World se lanzó en enero de 2024 e introdujo la capacidad de utilizar instrucciones escritas, permitiendo a los usuarios describir los objetos que quieren encontrar. Aunque YOLO-World era una gran opción para la detección zero-shot, carecía de características como la segmentación de instancias y el soporte de instrucciones visuales.
YOLOE se basa en YOLO-World añadiendo estas capacidades, mejorando la flexibilidad y el rendimiento, y ofreciendo una herramienta más eficaz para aplicaciones de visión artificial del mundo real.

Fig 2. YOLO-World y YOLOE soportan la detección zero-shot.
Link to this sectionUso de YOLOE con el paquete de Python de Ultralytics#
Tanto si quieres detectar objetos específicos como explorar todo lo que hay en una imagen, empezar con YOLOE es sencillo. Este modelo es compatible con el paquete de Python de Ultralytics, lo que facilita su integración en tus proyectos. A continuación, veamos cómo utilizarlo.
Link to this sectionInstalación del paquete de Ultralytics#
El primer paso es instalar el paquete de Python de Ultralytics utilizando un gestor de paquetes como 'pip'. Puedes hacerlo ejecutando el comando “pip install ultralytics” en tu terminal o símbolo del sistema.
Una vez instalado el paquete, tendrás todo lo necesario para cargar el modelo, hacer predicciones y experimentar con diferentes modos de detección. Si encuentras algún problema durante la instalación, la documentación oficial de Ultralytics ofrece una útil sección de resolución de problemas.
Existen varias formas de utilizar YOLOE para realizar predicciones. Ejecutar predicciones significa utilizar el modelo entrenado para identificar y localizar objetos dentro de imágenes o vídeos. Estos diferentes métodos te permiten personalizar la forma en que interactúas con el modelo según tus necesidades específicas.
Hablemos de cada uno de estos métodos, uno por uno.
Link to this sectionDetección de objetos específicos con instrucciones de texto o imagen#
YOLOE puede detectar objetos basándose en una breve descripción de texto. Por ejemplo, si buscas un caballo en movimiento, puedes usar una instrucción como "caballo caminando".
Para empezar, primero carga el modelo YOLOE preentrenado y establece tu instrucción (la descripción de lo que quieres que busque el modelo) tal y como se muestra en el fragmento de código siguiente.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una vez configurados tu modelo y tu instrucción, puedes ejecutar el modelo en una imagen o vídeo. Sustituye la ruta del archivo en el código por la ruta a tu archivo de imagen o vídeo:
results = model.predict("path/to/your/image.jpg")
results[0].show()Esto mostrará la imagen con el objeto detectado claramente marcado según tu instrucción. Puedes cambiar la instrucción para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", dependiendo de lo que estés buscando.

Fig 3. Un ejemplo de uso de YOLOE para detectar objetos específicos mediante una instrucción de texto.
De forma similar, puedes utilizar una imagen para darle instrucciones a YOLOE con el paquete de Python de Ultralytics. En el modo de instrucción visual, el modelo utiliza la imagen para encontrar elementos de aspecto similar en otra escena. Esto es especialmente útil para objetos difíciles de describir o que carecen de etiquetas claras.
Para explorar el código con más detalle, puedes consultar la documentación de Ultralytics.
Link to this sectionDetección general de objetos con YOLOE#
En algunos casos, puede que no sepas exactamente qué buscar, o puede que no estés buscando un objeto en particular. Ahí es donde resulta útil el modo sin instrucciones.
Con esta opción, no necesitas escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí mismo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.
Es una forma útil de explorar una escena sin darle al modelo ninguna instrucción específica. Tanto si estás escaneando una habitación llena de gente como revisando grabaciones con mucha actividad, el modo sin instrucciones te da una visión rápida de lo que hay presente en una imagen.
Puedes usar el siguiente código para ejecutar YOLOE en modo sin instrucciones. Primero, se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos en ella. Finalmente, se muestran los resultados y se resaltan los objetos detectados.
Asegúrate de reemplazar la ruta del archivo por la ruta real a tu imagen.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detectar en modo sin instrucciones.

Fig 4. Uso de YOLOE en modo sin instrucciones.
Link to this sectionAplicaciones en tiempo real de YOLOE#
La capacidad de YOLOE para responder tanto a instrucciones de texto como de imagen lo convierte en una herramienta fiable para aplicaciones en tiempo real. Su flexibilidad es especialmente útil en entornos de ritmo rápido donde el tiempo y la precisión son fundamentales.
Exploremos algunos ejemplos del mundo real sobre cómo puede utilizarse YOLOE.
Link to this sectionMejora del manejo de equipaje: Detección de equipaje en tiempo real#
En aeropuertos concurridos, localizar equipaje específico puede ser un desafío, especialmente cuando se trata de bolsas perdidas. YOLOE puede agilizar este proceso ayudando a escanear vídeos en directo e identificando rápidamente los artículos basándose en instrucciones simples como "bolsa roja".
Si una bolsa se pierde o se extravía, el personal puede cambiar fácilmente la instrucción para buscar un artículo diferente, como una "maleta negra". Esta capacidad de adaptarse al instante puede ayudar al personal del aeropuerto a localizar el equipaje correcto rápidamente sin revisar largas horas de metraje o reentrenar el modelo, haciendo que el manejo de equipaje y la resolución de problemas de equipaje perdido sean mucho más rápidos y eficientes.
Link to this sectionMonitorización de espacios públicos con YOLOE#
Las imágenes de vigilancia de espacios públicos, como mercados concurridos y cafeterías, a menudo incluyen una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas imágenes en tiempo real utilizando el modo sin instrucciones, detectando automáticamente artículos como bolsas, mesas o bicicletas sin necesidad de instrucciones específicas.

Fig 5. YOLOE puede detectar varios objetos en un espacio público concurrido.
Esto es especialmente útil para que los equipos de seguridad detecten objetos abandonados o sigan el movimiento de la multitud. La capacidad de YOLOE para detectar múltiples objetos a la vez facilita la gestión de espacios públicos durante eventos o períodos de mucha actividad, ayudando a los equipos a mantenerse informados y a responder con rapidez.
Link to this sectionPros y contras de YOLOE#
Estos son algunos de los beneficios clave de utilizar YOLOE para aplicaciones de visión artificial:
- Rendimiento en tiempo real: YOLOE está optimizado para un procesamiento rápido y eficiente, lo que permite la detección en tiempo real, incluso en entornos dinámicos como transmisiones de vídeo en directo o espacios públicos concurridos.
- Escalabilidad: YOLOE es escalable y funciona bien para una amplia variedad de aplicaciones, desde seguridad y vigilancia hasta comercio minorista, sanidad y vehículos autónomos.
- Fácil de usar: Dado que YOLOE es compatible con el paquete de Python de Ultralytics, es fácil de integrar en tus proyectos de visión artificial existentes.
Sin embargo, hay algunas limitaciones a tener en cuenta al utilizar YOLOE. Aquí hay un par de factores a considerar:
- Requiere suficientes datos de entrenamiento: Aunque YOLOE admite la detección zero-shot, su rendimiento en objetos no vistos depende de lo bien que se generalice a partir de sus datos de entrenamiento. En algunos casos, puede necesitar datos adicionales o un ajuste fino para funcionar bien en tareas altamente especializadas.
- Sensible a la calidad de entrada: La precisión del modelo puede verse afectada por imágenes o vídeos de baja calidad. Una entrada borrosa o con poca iluminación puede reducir la capacidad del modelo para detectar objetos con precisión, por lo que una entrada de alta calidad es importante para un rendimiento óptimo.
Link to this sectionConclusiones clave#
YOLOE aporta más flexibilidad a la visión artificial al permitir a los usuarios guiar la detección con instrucciones de texto o imagen. Funciona bien en situaciones del mundo real donde las escenas cambian rápidamente y el reentrenamiento no es una opción.
Desde el manejo de equipaje hasta la monitorización de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se vuelve más accesible, modelos como YOLOE están ayudando a más industrias a utilizar la tecnología de visión de formas prácticas y eficientes.
Únete a nuestra comunidad y explora nuestro repositorio de GitHub para aprender más sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión artificial en la sanidad en nuestras páginas de soluciones. ¡Echa un vistazo a nuestras opciones de licencia y empieza con la visión artificial hoy mismo!






