Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Los mejores modelos de detección de objetos de 2025

Explora los mejores modelos de detección de objetos en 2026, con un repaso a las arquitecturas populares, las compensaciones de rendimiento y los factores prácticos de despliegue.

ABAbirami Vina
6 min read
Un ejemplo de detección de objetos

A principios de este año, Andrew Ng, pionero en IA y aprendizaje automático, introdujo el concepto de detección de objetos con agentes. Este enfoque utiliza un agente de razonamiento para detectar objetos basados en una instrucción de texto sin necesidad de grandes volúmenes de datos de entrenamiento.

Ser capaz de identificar objetos en imágenes y vídeos sin necesitar enormes conjuntos de datos etiquetados es un paso hacia sistemas de computer vision más inteligentes y flexibles. Sin embargo, la IA de visión basada en agentes aún está en sus primeras etapas.

Aunque puede manejar tareas generales, como detectar personas o señales de tráfico en una imagen, las aplicaciones de computer vision más precisas siguen dependiendo de modelos de detección de objetos tradicionales. Estos modelos se entrenan con conjuntos de datos grandes y cuidadosamente etiquetados para aprender exactamente qué buscar y dónde se encuentran los objetos.

Un ejemplo de detección de objetos

Fig 1. Un ejemplo de detección de objetos. (Source)

La object detection tradicional es esencial porque proporciona tanto el reconocimiento, que identifica qué es el objeto, como la localización, que determina exactamente dónde está en la imagen. Esta combinación permite a las máquinas realizar tareas complejas del mundo real de forma fiable, desde vehículos autónomos hasta automatización industrial y diagnósticos médicos.

Gracias a los avances tecnológicos, los modelos de detección de objetos siguen mejorando, volviéndose más rápidos, precisos y adecuados para entornos del mundo real. En este artículo, repasaremos algunos de los mejores modelos de detección de objetos disponibles hoy en día. ¡Empecemos!

Link to this sectionLa necesidad de la detección de objetos#

Las computer vision tasks como la clasificación de imágenes pueden utilizarse para determinar si una imagen contiene un coche, una persona u otro objeto. Sin embargo, no pueden determinar dónde se encuentra el objeto dentro de la imagen.

Aquí es donde la detección de objetos puede aportar información valiosa. Los modelos de detección de objetos pueden identificar qué objetos están presentes y también señalar sus ubicaciones exactas. Este proceso, conocido como localización, permite a las máquinas comprender escenas con mayor precisión y responder adecuadamente, ya sea deteniendo un coche autónomo, guiando un brazo robótico o resaltando un área en imágenes médicas.

El auge del deep learning ha transformado la detección de objetos. En lugar de depender de reglas codificadas manualmente, los modelos modernos aprenden patrones directamente de anotaciones y datos visuales. Estos conjuntos de datos enseñan a los modelos qué aspecto tienen los objetos, dónde suelen aparecer y cómo gestionar desafíos como objetos pequeños, escenas desordenadas o condiciones de iluminación variables.

De hecho, los sistemas de detección de objetos de última generación pueden detectar múltiples objetos con precisión de una sola vez. Esto hace que la detección de objetos sea una tecnología crítica en aplicaciones como la conducción autónoma, la robótica, la sanidad y la automatización industrial.

Link to this sectionCómo funcionan las tareas de detección de objetos#

La entrada para un modelo de detección de objetos es una imagen, que podría provenir de una cámara, un fotograma de vídeo o incluso una exploración médica. La imagen de entrada se procesa a través de una red neuronal, normalmente una red neuronal convolucional (CNN), entrenada para reconocer patrones en datos visuales.

Dentro de la red, la imagen se analiza por etapas. Basándose en las características que detecta, el modelo predice qué objetos están presentes y dónde aparecen.

Estas predicciones se representan mediante BBox, que son rectángulos dibujados alrededor de cada objeto detectado. Para cada BBox, el modelo asigna una etiqueta de clase (por ejemplo, coche, persona o perro) y una puntuación de confianza que indica qué tan seguro está sobre la predicción (esto también puede considerarse como una probabilidad).

Predicciones de detección de objetos visualizadas mediante cajas delimitadoras

Fig 2. Las predicciones de detección de objetos pueden visualizarse mediante BBox.

El proceso general depende en gran medida de la extracción de características. El modelo aprende a identificar patrones visuales útiles, como bordes, formas, texturas y otras características distintivas. Estos patrones se codifican en mapas de características, que ayudan a la red a entender la imagen en múltiples niveles de detalle.

Link to this sectionDetección de objetos: dos etapas y una etapa#

Dependiendo de la arquitectura del modelo, los detectores de objetos utilizan diferentes estrategias para localizar objetos, equilibrando velocidad, precisión y complejidad.

Muchos modelos de detección de objetos, particularmente los detectores de dos etapas como Faster R-CNN, se centran en partes específicas de la imagen llamadas regiones de interés (ROI). Al concentrarse en estas áreas, el modelo prioriza las regiones con mayor probabilidad de contener objetos en lugar de analizar cada píxel por igual.

Por otro lado, los modelos de una sola etapa como los primeros modelos de YOLO no seleccionan regiones de interés específicas como los modelos de dos etapas. En su lugar, dividen la imagen en una cuadrícula y utilizan cajas predefinidas, llamadas anchor boxes, junto con mapas de características para predecir objetos en toda la imagen en una sola pasada.

Hoy en día, los modelos de detección de objetos de vanguardia están explorando enfoques sin anclas (anchor-free). A diferencia de los modelos tradicionales de una sola etapa que dependen de anchor boxes predefinidas, los modelos sin anclas predicen las ubicaciones y tamaños de los objetos directamente desde los mapas de características. Esto puede simplificar la arquitectura, reducir la carga computacional y mejorar el rendimiento, especialmente para detectar objetos de diversas formas y tamaños.

Link to this sectionUn vistazo a los mejores modelos de detección de objetos#

Hoy en día, existen muchos modelos de detección de objetos, cada uno diseñado con objetivos específicos en mente. Algunos están optimizados para el rendimiento en tiempo real, mientras que otros se centran en lograr la mayor precisión. Elegir el modelo adecuado para una solución de computer vision a menudo depende de tu caso de uso particular y tus requisitos de rendimiento.

A continuación, exploremos algunos de los mejores modelos de detección de objetos de 2026.

Link to this sectionModelos Ultralytics YOLO#

Una de las familias de modelos de detección de objetos más utilizadas hoy en día es la familia de modelos Ultralytics YOLO. YOLO, que significa You Only Look Once, es popular en todas las industrias porque ofrece un gran rendimiento de detección a la vez que es rápido, fiable y fácil de usar.

La familia Ultralytics YOLO incluye Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11 y el próximo Ultralytics YOLO26, ofreciendo una gama de opciones para diferentes requisitos de rendimiento y casos de uso. Gracias a su diseño ligero y optimización de velocidad, los modelos Ultralytics YOLO son ideales para la detección en tiempo real y pueden desplegarse en dispositivos periféricos con potencia de cálculo y memoria limitadas.

Uso de Ultralytics YOLO11 para la detección de objetos

Fig 3. Uso de Ultralytics YOLO11 para detección de objetos (Source)

Más allá de la detección de objetos básica, estos modelos son altamente versátiles. También admiten tareas como la segmentación de instancias, que perfila objetos a nivel de píxel, y la estimación de pose, que identifica puntos clave en personas u objetos. Esta flexibilidad convierte a los modelos Ultralytics YOLO en una opción preferente para una amplia gama de aplicaciones, desde agricultura y logística hasta venta minorista y fabricación.

Otra razón clave de la popularidad de los modelos Ultralytics YOLO es el Ultralytics Python package, que proporciona una interfaz sencilla y fácil de usar para entrenar, ajustar y desplegar modelos. Los desarrolladores pueden empezar con pesos preentrenados, personalizar los modelos para sus propios conjuntos de datos y desplegarlos con solo unas pocas líneas de código.

Link to this sectionRT-DETR y RT-DETRv2#

RT-DETR (Real-Time Detection Transformer) y el más nuevo RT-DETRv2 son modelos de detección de objetos creados para uso en tiempo real. A diferencia de muchos modelos tradicionales, pueden tomar una imagen y proporcionar las detecciones finales directamente sin utilizar NMS.

NMS es un paso que elimina las cajas superpuestas adicionales cuando un modelo predice el mismo objeto más de una vez. Omitir NMS hace que el proceso de detección sea más sencillo y rápido.

Estos modelos combinan CNN con Transformer. La CNN encuentra detalles visuales como bordes y formas, mientras que el Transformer es un tipo de red neuronal que puede observar toda la imagen a la vez y comprender cómo se relacionan las diferentes partes entre sí. Esta comprensión integral permite al modelo detectar objetos que están cerca unos de otros o superpuestos.

RT-DETRv2 mejora el modelo original con características como la detección multiescala, que ayuda a encontrar tanto objetos pequeños como grandes, y un mejor manejo de escenas complejas. Estos cambios mantienen el modelo rápido a la vez que mejoran la precisión.

Link to this sectionRF-DETR#

RF-DETR es un modelo basado en Transformer en tiempo real diseñado para combinar la precisión de las arquitecturas Transformer con la velocidad necesaria para aplicaciones del mundo real. Al igual que RT-DETR y RT-DETRv2, utiliza un Transformer para analizar toda la imagen y una CNN para extraer características visuales finas como bordes, formas y texturas.

El modelo predice objetos directamente desde la imagen de entrada, omitiendo anchor boxes y NMS, lo que simplifica el proceso de detección y mantiene la inferencia rápida. RF-DETR también admite la segmentación de instancias, permitiéndole perfilar objetos a nivel de píxel además de predecir BBox.

Link to this sectionEfficientDet#

Lanzado a finales de 2019, EfficientDet es un modelo de detección de objetos diseñado para un escalado eficiente y un alto rendimiento. Lo que distingue a EfficientDet es el escalado compuesto, un método que escala la resolución de entrada, la profundidad de la red y el ancho de la red simultáneamente en lugar de ajustar solo un factor. Este enfoque ayuda al modelo a mantener una precisión estable tanto si se escala para tareas de alto rendimiento como si se reduce para despliegues ligeros.

Otro componente clave de EfficientDet es su red piramidal de características eficiente (FPN), que permite al modelo analizar imágenes a múltiples escalas. Este análisis multiescala es crucial para detectar objetos de diferentes tamaños, lo que permite a EfficientDet identificar de forma fiable tanto objetos pequeños como grandes dentro de la misma imagen.

Link to this sectionPP-YOLOE+#

Lanzado en 2022, PP-YOLOE+ es un modelo de detección de objetos de estilo YOLO, lo que significa que detecta y clasifica objetos en una sola pasada sobre la imagen. Este enfoque lo hace rápido y adecuado para aplicaciones en tiempo real, manteniendo al mismo tiempo una alta precisión.

Una de las mejoras clave en PP-YOLOE+ es el aprendizaje alineado con la tarea, que ayuda a que las puntuaciones de confianza del modelo reflejen la precisión con la que se localizan los objetos. Esto es especialmente útil para detectar objetos pequeños o superpuestos.

Detección de objetos usando PP-YOLOE+

Fig 4. Detección de objetos mediante PP-YOLOE+ (Source)

El modelo también utiliza una arquitectura de cabezal desacoplado, que separa las tareas de predecir las ubicaciones de los objetos y las etiquetas de clase. Esto le permite dibujar BBox con mayor precisión mientras clasifica los objetos correctamente.

Link to this sectionGroundingDINO#

GroundingDINO es un modelo de detección de objetos basado en Transformer que combina visión y lenguaje. En lugar de depender de un conjunto fijo de categorías, permite a los usuarios detectar objetos mediante instrucciones de texto en lenguaje natural.

Al alinear las características visuales de una imagen con descripciones de texto, el modelo puede localizar objetos incluso si esas etiquetas exactas no estaban en sus datos de entrenamiento. Esto significa que puedes pedir al modelo descripciones como "una persona con casco" o "un coche rojo cerca de un edificio", y generará BBox precisos alrededor de los objetos coincidentes.

Además, al admitir la detección zero-shot, GroundingDINO reduce la necesidad de reentrenar o ajustar el modelo para cada nuevo caso de uso, haciéndolo altamente flexible en una amplia gama de aplicaciones. Esta combinación de comprensión del lenguaje y reconocimiento visual abre nuevas posibilidades para sistemas de IA interactivos y adaptativos.

Link to this sectionMétricas comunes utilizadas para evaluar detectores de objetos#

A medida que comparas varios modelos de detección de objetos, es posible que te preguntes cómo saber cuál funciona realmente mejor. Es una buena pregunta, porque más allá de la arquitectura del modelo y la calidad de tus datos, muchos factores pueden afectar al rendimiento.

Los investigadores suelen confiar en puntos de referencia compartidos y métricas de rendimiento estándar para evaluar los modelos de forma coherente, comparar resultados y comprender las compensaciones entre velocidad y precisión. Los puntos de referencia estándar son especialmente importantes porque muchos modelos de detección de objetos se evalúan con los mismos conjuntos de datos, como el conjunto de datos COCO.

Link to this sectionMedición de la precisión y velocidad de detección#

Aquí tienes un análisis más detallado de algunas métricas comunes utilizadas para evaluar modelos de detección de objetos:

  • IoU (Intersection over Union): Esta métrica mide cuánto se superpone un BBox previsto con el objeto real en una imagen. Compara la caja dibujada por el modelo con la caja de verdad fundamental (ground-truth), que es la ubicación del objeto tal como está etiquetada en el conjunto de datos. El IoU se calcula como el área de superposición dividida por el área de unión de las dos cajas. Un IoU más alto indica que el modelo está colocando la caja con mayor precisión, mientras que un IoU más bajo significa que la predicción es menos precisa. En términos simples, el IoU muestra qué tan bien coinciden las predicciones del modelo con las ubicaciones reales de los objetos.
  • mAP (Mean Average Precision): Es la métrica principal utilizada para evaluar el rendimiento general de la detección de objetos. Tiene en cuenta tanto el número de objetos que el modelo detecta correctamente como la precisión de esas detecciones en diferentes niveles de confianza y categorías de objetos.
  • FPS (Frames per second) y latencia: Los FPS muestran cuántas imágenes o fotogramas de vídeo puede procesar un modelo en un segundo. Por ejemplo, un modelo que funciona a 30 FPS puede manejar 30 fotogramas cada segundo. Unos FPS más altos significan que el sistema puede responder más rápido, lo cual es importante para casos de uso como vídeo en directo, control de tráfico o robótica. La latencia, por otro lado, mide cuánto tiempo tarda el modelo en procesar una sola imagen o fotograma desde el momento en que se recibe hasta que el resultado está listo.

Link to this sectionVentajas y desventajas de utilizar algoritmos de detección de objetos#

Estas son algunas de las ventajas clave de utilizar modelos de detección de objetos en aplicaciones del mundo real:

  • Se escala en todas las industrias: La detección de objetos se puede aplicar a una amplia gama de casos de uso, desde el control de tráfico y el análisis de ventas minoristas hasta la sanidad, la agricultura y la fabricación.
  • Reduce el esfuerzo manual: Automatizar las tareas de inspección y monitorización visual reduce la necesidad de una supervisión humana constante y ayuda a los equipos a centrarse en trabajos de mayor valor.
  • Se beneficia de ecosistemas de código abierto: Las comunidades activas de código abierto y los recursos en GitHub facilitan el acceso a modelos preentrenados, la experimentación y la personalización de soluciones.

A pesar de estos pros, existen limitaciones prácticas que pueden afectar al rendimiento de los modelos de detección de objetos. Estos son algunos factores vitales a considerar:

  • Requisitos de datos de alta calidad: Los modelos de detección de objetos dependen de conjuntos de datos grandes y bien anotados para el entrenamiento. Crear y mantener estos datos puede llevar mucho tiempo, ser costoso y difícil de escalar.
  • Demandas computacionales: Los modelos que ofrecen una mayor precisión de detección a menudo requieren una potencia de procesamiento significativa, tanto durante el entrenamiento como en el despliegue en tiempo real. Esto normalmente significa utilizar GPU de alto rendimiento, lo que puede aumentar los costes de infraestructura.
  • Sensibilidad a las condiciones del mundo real: Las variaciones en la iluminación, los ángulos de cámara, el clima y las escenas concurridas pueden afectar al rendimiento de la detección, haciendo necesarias pruebas y ajustes continuos.

Link to this sectionConclusiones clave#

El mejor modelo de detección de objetos para tu proyecto de computer vision depende de tu caso de uso, configuración de datos, requisitos de rendimiento y limitaciones de hardware. Algunos modelos están optimizados para la velocidad, mientras que otros se centran en la precisión, y la mayoría de las aplicaciones del mundo real necesitan un equilibrio de ambos. Gracias a los marcos de trabajo de código abierto y a las comunidades activas en GitHub, estos modelos son cada vez más fáciles de evaluar, adaptar y desplegar para un uso práctico.

Para obtener más información, explora nuestro GitHub repository. Únete a nuestra community y echa un vistazo a nuestras páginas de soluciones para leer sobre aplicaciones como AI in healthcare y computer vision in the automotive industria. Descubre nuestras licensing options para empezar con la IA de visión hoy mismo.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático