Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.
Aprenda cómo YOLOE le permite encontrar objetos utilizando un simple prompt o una foto. Permite una visión artificial más inteligente y rápida sin necesidad de volver a entrenar o ajustar los modelos.
La detección de objetos es una tarea clave de la visión artificial, donde el objetivo es identificar y localizar objetos en imágenes o videos. Es una parte crucial de la visión artificial, un campo de la inteligencia artificial (IA) que permite a las máquinas comprender e interpretar datos visuales. Por ejemplo, la detección de objetos puede ayudar a identificar un automóvil en una imagen o detectar a una persona en una transmisión de video.
Una de las series de modelos más conocidas para tareas de visión por ordenador como la detección de objetos es la serie de modelos YOLO (You Only Look Once). Diseñados para ofrecer velocidad y precisión, los modelos YOLO no han dejado de mejorar con el tiempo. Por ejemplo, una de las últimas versiones, Ultralytics YOLO11obtiene buenos resultados en situaciones reales, incluso en entornos complejos.
Un nuevo modelo, denominado YOLOE, pretende ampliar las capacidades de los modelos YOLO . A diferencia de los modelos tradicionales, que requieren un reentrenamiento para reconocer nuevos objetos, YOLOE puede seguir sencillas instrucciones de texto o imagen para detect objetos que no ha visto antes, lo que lo hace mucho más adaptable a entornos cambiantes.
En este artículo analizaremos en detalle qué hace que YOLOE sea único, cómo se compara con los modelos YOLO anteriores y cómo puede empezar a utilizarlo hoy mismo. Empecemos.
YOLOE es un modelo de visión artificial que lleva la detección de objetos un paso más allá. Fue presentado en marzo de 2025 por investigadores de la Universidad de Tsinghua. Lo que distingue a YOLOE de los modelos tradicionales es su uso de la detección de vocabulario abierto.
Si bien la mayoría de los modelos están entrenados para reconocer una lista fija de objetos, YOLOE le permite especificar qué buscar utilizando una breve descripción o una imagen de ejemplo. Por ejemplo, si está buscando una "mochila verde", puede escribir esa descripción o mostrarle al modelo una foto, y YOLOE la localizará dentro de la escena.
Además, incluso sin ninguna indicación, YOLOE puede detect por sí solo muchos objetos cotidianos. Esta capacidad de reconocer objetos que nunca ha visto antes se denomina detección de disparo cero. Resulta especialmente útil en entornos dinámicos en los que la tarea o los objetos de interés pueden cambiar inesperadamente.

YOLOE soporta una amplia gama de características diseñadas para mejorar su rendimiento en aplicaciones del mundo real. Con su capacidad para manejar tanto entradas estructuradas como no estructuradas, YOLOE abre nuevas posibilidades para la detección y segmentación de objetos.
Estas son algunas de las características clave que aporta el modelo:
Ahora que entendemos mejor qué es YOLOE, echemos un vistazo a algunos modelos similares de la familia YOLO .
A medida que ha progresado la visión por ordenador, también lo han hecho los modelos YOLO . Por ejemplo, Ultralytics YOLOv8 aportó compatibilidad con nuevas tareas como la segmentación y la clasificación, mientras que las versiones posteriores, como Ultralytics YOLO11, se han centrado en mejorar la precisión y el rendimiento de una gama más amplia de tareas.
Además, YOLO se lanzó en enero de 2024 e introdujo la posibilidad de utilizar instrucciones escritas para que los usuarios describieran los objetos que querían encontrar. Aunque YOLO era una gran opción para la detección de disparos cero, carecía de funciones como la segmentación de instancias y el soporte de indicaciones visuales.
YOLOE se basa en YOLO añadiendo estas capacidades, mejorando la flexibilidad y el rendimiento, y ofreciendo una herramienta más impactante para las aplicaciones de visión por ordenador del mundo real.

Tanto si desea detect objetos específicos como explorar todo lo que hay en una imagen, empezar a utilizar YOLOE es muy sencillo. Este modelo es compatible con el paquete Ultralytics Python , lo que facilita su integración en sus proyectos. A continuación, vamos a ver cómo utilizarlo.
El primer paso es instalar el paqueteUltralytics Python utilizando un gestor de paquetes como 'pip'. Puede hacerlo ejecutando el comando "pip install ultralytics" en su terminal o símbolo del sistema.
Una vez instalado el paquete, dispondrá de todo lo necesario para cargar el modelo, realizar predicciones y experimentar con distintos modos de detección. Si te encuentras con algún problema durante la instalación, la documentación oficial Ultralytics ofrece una útil sección de resolución de problemas.
Hay diferentes maneras de usar YOLOE para ejecutar predicciones. Ejecutar predicciones significa usar el modelo entrenado para identificar y localizar objetos dentro de imágenes o videos. Estos diferentes métodos le permiten personalizar cómo interactúa con el modelo según sus necesidades específicas.
Analicemos cada uno de estos métodos, uno a la vez.
YOLOE puede detect objetos basándose en una breve descripción de texto. Por ejemplo, si buscas un caballo en movimiento, puedes utilizar una indicación como "caballo caminando".
Para empezar, primero cargue el modelo YOLOE pre-entrenado y establezca su prompt (la descripción de lo que quiere que el modelo busque) como se muestra en el fragmento de código a continuación.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Una vez que tu modelo y tu prompt estén configurados, puedes ejecutar el modelo en una imagen o vídeo. Reemplaza la ruta del archivo en el código con la ruta a tu archivo de imagen o vídeo:
results = model.predict("path/to/your/image.jpg")
results[0].show()Esto mostrará la imagen con el objeto detectado claramente marcado según tu indicación. Puedes cambiar la indicación para buscar diferentes objetos, como "maleta roja", "bicicleta" o "cebra", dependiendo de lo que estés buscando.

Del mismo modo, puede utilizar una imagen para preguntar a YOLOE con el paquete Ultralytics Python . En el modo visual, el modelo utiliza la imagen para encontrar objetos similares en otra escena. Esto es especialmente útil para objetos difíciles de describir o que carecen de etiquetas claras.
Para explorar el código con más detalle, puede consultar la documentaciónUltralytics .
En algunos casos, es posible que no sepa exactamente qué buscar, o que no esté buscando un objeto en particular. Ahí es donde el modo sin indicaciones resulta útil.
Con esta opción, no necesita escribir una descripción ni proporcionar una imagen de ejemplo. YOLOE simplemente analiza las imágenes por sí solo y detecta todo lo que puede reconocer, como personas, animales, muebles u objetos cotidianos.
Es una forma útil de explorar una escena sin dar al modelo ninguna instrucción específica. Ya sea que esté escaneando una habitación llena de gente o revisando imágenes con mucha actividad, el modo sin indicaciones le brinda una vista rápida de lo que está presente en una imagen.
Puede utilizar el siguiente código para ejecutar YOLOE en modo libre. Primero, se carga el modelo, luego procesa la imagen y detecta automáticamente los objetos en ella. Finalmente, se muestran los resultados y se resaltan los objetos detectados.
Asegúrate de reemplazar la ruta del archivo con la ruta real de tu imagen.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()La imagen que se muestra a continuación es un ejemplo de lo que YOLOE puede detect en modo "prompt-free".

La capacidad de YOLOE para responder a indicaciones de texto e imagen lo convierte en una herramienta confiable para aplicaciones en tiempo real. Su flexibilidad es particularmente útil en entornos de ritmo rápido donde el tiempo y la precisión son esenciales.
Exploremos algunos ejemplos del mundo real de cómo se puede utilizar YOLOE.
En los aeropuertos concurridos, localizar un equipaje específico puede ser un desafío, especialmente cuando se trata de maletas perdidas. YOLOE puede agilizar este proceso ayudando a escanear videos en vivo e identificando rápidamente artículos basados en indicaciones simples como “bolsa roja”.
Si falta una maleta o se extravía, el personal puede cambiar fácilmente el *prompt* para buscar un artículo diferente, como una “maleta negra”. Esta capacidad de adaptación instantánea puede ayudar al personal del aeropuerto a localizar rápidamente el equipaje correcto sin tener que revisar largas horas de metraje o reentrenar el modelo, lo que hace que la gestión del equipaje y la resolución de problemas de equipaje perdido sean mucho más rápidos y eficientes.
Las grabaciones de vigilancia de espacios públicos, como mercados y cafeterías concurridas, a menudo incluyen una mezcla de personas, objetos y actividades que cambian a lo largo del día. YOLOE puede analizar estas grabaciones en tiempo real utilizando el modo sin indicaciones, detectando automáticamente elementos como bolsos, mesas o bicicletas sin necesidad de instrucciones específicas.

Esto resulta especialmente útil para que los equipos de seguridad detecten objetos desatendidos o track movimiento de la multitud. La capacidad de YOLOE para detect varios objetos a la vez facilita la gestión de espacios públicos durante eventos o periodos de gran afluencia, ayudando a los equipos a mantenerse informados y reaccionar.
Estos son algunos de los principales beneficios de usar YOLOE para aplicaciones de visión artificial:
Sin embargo, hay algunas limitaciones que se deben tener en cuenta al usar YOLOE. Estos son un par de factores a considerar:
YOLOE aporta más flexibilidad a la visión artificial al permitir a los usuarios guiar la detección con texto o indicaciones de imagen. Funciona bien en situaciones del mundo real donde las escenas cambian rápidamente y el reentrenamiento no es una opción.
Desde el manejo de equipaje hasta la vigilancia de espacios públicos, YOLOE se adapta a nuevas tareas con facilidad. A medida que la IA se vuelve más accesible, modelos como YOLOE están ayudando a más industrias a utilizar la tecnología de visión de forma práctica y eficiente.
Únete a nuestra comunidad y explora nuestro repositorio en GitHub para obtener más información sobre las innovaciones en IA. Descubre los últimos avances en áreas como la IA en el comercio minorista y la visión artificial en la atención médica en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y ¡empieza hoy mismo con la visión artificial!