¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

La evolución de la detección de objetos y los modelos YOLO de Ultralytics

Abirami Vina

4 minutos de lectura

18 de octubre de 2024

Únase a nosotros para echar un vistazo a la evolución de la detección de objetos. Nos centraremos en cómo han avanzado los modelos YOLO (You Only Look Once) en los últimos años.

La visión artificial es un subcampo de la inteligencia artificial (IA) que se centra en enseñar a las máquinas a ver y comprender imágenes y vídeos, de forma similar a como los humanos perciben el mundo real. Si bien el reconocimiento de objetos o la identificación de acciones es algo natural para los humanos, estas tareas requieren técnicas de visión artificial específicas y especializadas cuando se trata de máquinas. Por ejemplo, una tarea clave en la visión artificial es la detección de objetos, que implica identificar y localizar objetos dentro de imágenes o vídeos. 

Desde la década de 1960, los investigadores han estado trabajando para mejorar la forma en que los ordenadores pueden detectar objetos. Los primeros métodos, como la coincidencia de plantillas, consistían en deslizar una plantilla predefinida a través de una imagen para encontrar coincidencias. Aunque innovadores, estos enfoques tenían problemas con los cambios en el tamaño, la orientación y la iluminación de los objetos. Hoy en día, tenemos modelos avanzados como Ultralytics YOLO11 que pueden detectar incluso objetos pequeños y parcialmente ocultos, conocidos como objetos ocluidos, con una precisión impresionante.

A medida que la visión artificial continúa evolucionando, es importante recordar cómo se han desarrollado estas tecnologías. En este artículo, exploraremos la evolución de la detección de objetos y destacaremos la transformación de los modelos YOLO (You Only Look Once). ¡Empecemos!

Los orígenes de la visión artificial

Antes de sumergirnos en la detección de objetos, echemos un vistazo a cómo comenzó la visión artificial. Los orígenes de la visión artificial se remontan a finales de la década de 1950 y principios de la de 1960, cuando los científicos comenzaron a explorar cómo el cerebro procesa la información visual. En experimentos con gatos, los investigadores David Hubel y Torsten Wiesel descubrieron que el cerebro reacciona a patrones simples como bordes y líneas. Esto formó la base de la idea detrás de la extracción de características: el concepto de que los sistemas visuales detectan y reconocen características básicas en las imágenes, como los bordes, antes de pasar a patrones más complejos.

Fig. 1. Aprender cómo el cerebro de un gato reacciona a las barras de luz ayudó a desarrollar la extracción de características en la visión artificial.

Casi al mismo tiempo, surgió una nueva tecnología que podía convertir imágenes físicas en formatos digitales, lo que despertó el interés en cómo las máquinas podían procesar la información visual. En 1966, el Proyecto de Visión de Verano del Instituto Tecnológico de Massachusetts (MIT) impulsó aún más las cosas. Si bien el proyecto no tuvo éxito completo, su objetivo era crear un sistema que pudiera separar el primer plano del fondo en imágenes. Para muchos en la comunidad de Vision AI, este proyecto marca el inicio oficial de la visión artificial como un campo científico.

Entendiendo la historia de la detección de objetos

A medida que la visión artificial avanzó a finales de la década de 1990 y principios de la de 2000, los métodos de detección de objetos pasaron de técnicas básicas como la coincidencia de plantillas a enfoques más avanzados. Un método popular fue Haar Cascade, que se utilizó ampliamente para tareas como la detección de rostros. Funcionaba escaneando imágenes con una ventana deslizante, buscando características específicas como bordes o texturas en cada sección de la imagen, y luego combinando estas características para detectar objetos como rostros. Haar Cascade era mucho más rápido que los métodos anteriores.

Fig. 2. Uso de Haar Cascade para la detección de rostros.

Junto con estos, también se introdujeron métodos como el Histograma de Gradientes Orientados (HOG) y las Máquinas de Vectores de Soporte (SVM). HOG utilizó la técnica de la ventana deslizante para analizar cómo cambiaban la luz y las sombras en pequeñas secciones de una imagen, lo que ayudó a identificar objetos basándose en sus formas. Luego, las SVM clasificaron estas características para determinar la identidad del objeto. Estos métodos mejoraron la precisión, pero aún tenían dificultades en entornos del mundo real y eran más lentos en comparación con las técnicas actuales.

La necesidad de la detección de objetos en tiempo real

En la década de 2010, el auge del aprendizaje profundo y las redes neuronales convolucionales (CNN) trajo un cambio importante en la detección de objetos. Las CNN hicieron posible que las computadoras aprendieran automáticamente características importantes de grandes cantidades de datos, lo que hizo que la detección fuera mucho más precisa. 

Los primeros modelos como R-CNN (Redes Neuronales Convolucionales Basadas en Regiones) fueron una gran mejora en la precisión, lo que ayudó a identificar objetos con mayor precisión que los métodos anteriores. 

Sin embargo, estos modelos eran lentos porque procesaban las imágenes en varias etapas, lo que los hacía poco prácticos para aplicaciones en tiempo real en áreas como los coches autónomos o la videovigilancia.

Con el objetivo de acelerar los procesos, se desarrollaron modelos más eficientes. Modelos como Fast R-CNN y Faster R-CNN ayudaron a refinar la forma en que se elegían las regiones de interés y a reducir el número de pasos necesarios para la detección. Si bien esto hizo que la detección de objetos fuera más rápida, aún no era lo suficientemente veloz para muchas aplicaciones del mundo real que necesitaban resultados instantáneos. La creciente demanda de detección en tiempo real impulsó el desarrollo de soluciones aún más rápidas y eficientes que pudieran equilibrar tanto la velocidad como la precisión.

Fig. 3. Comparación de las velocidades de R-CNN, Fast R-CNN y Faster R-CNN.

Modelos YOLO (You Only Look Once): Un hito importante

YOLO es un modelo de detección de objetos que redefinió la visión artificial al permitir la detección en tiempo real de múltiples objetos en imágenes y vídeos, lo que lo hace bastante singular en comparación con los métodos de detección anteriores. En lugar de analizar cada objeto detectado individualmente, la arquitectura de YOLO trata la detección de objetos como una sola tarea, prediciendo tanto la ubicación como la clase de los objetos de una sola vez utilizando CNN. 

El modelo funciona dividiendo una imagen en una cuadrícula, y cada parte se encarga de detectar objetos en su área respectiva. Realiza múltiples predicciones para cada sección y filtra los resultados menos fiables, quedándose solo con los precisos. 

Fig. 4. Una visión general de cómo funciona YOLO.

La introducción de YOLO en las aplicaciones de visión artificial hizo que la detección de objetos fuera mucho más rápida y eficiente que con los modelos anteriores. Debido a su velocidad y precisión, YOLO se convirtió rápidamente en una opción popular para soluciones en tiempo real en industrias como la manufactura, la sanidad y la robótica.

Otro punto importante a tener en cuenta es que, dado que YOLO era de código abierto, los desarrolladores e investigadores pudieron mejorarlo continuamente, lo que condujo a versiones aún más avanzadas.

El camino de YOLO a YOLO11

Los modelos YOLO han mejorado constantemente con el tiempo, basándose en los avances de cada versión. Junto con un mejor rendimiento, estas mejoras han hecho que los modelos sean más fáciles de usar para personas con diferentes niveles de experiencia técnica.

Por ejemplo, cuando se introdujo Ultralytics YOLOv5, la implementación de modelos se simplificó con PyTorch, lo que permitió a una gama más amplia de usuarios trabajar con IA avanzada. Unió precisión y usabilidad, dando a más personas la capacidad de implementar la detección de objetos sin necesidad de ser expertos en codificación.

Fig. 5. La evolución de los modelos YOLO.

Ultralytics YOLOv8 continuó este progreso añadiendo soporte para tareas como la segmentación de instancias y haciendo que los modelos fueran más flexibles. Se hizo más fácil usar YOLO tanto para aplicaciones básicas como para aplicaciones más complejas, haciéndolo útil en una variedad de escenarios.

Con el último modelo, Ultralytics YOLO11, se han realizado optimizaciones adicionales. Al reducir el número de parámetros al tiempo que se mejora la precisión, ahora es más eficiente para las tareas en tiempo real. Tanto si eres un desarrollador experimentado como si eres nuevo en la IA, YOLO11 ofrece un enfoque avanzado para la detección de objetos que es fácilmente accesible.

Conociendo YOLO11: Nuevas características y mejoras

YOLO11, lanzado en el evento híbrido anual de Ultralytics, YOLO Vision 2024 (YV24), es compatible con las mismas tareas de visión artificial que YOLOv8, como la detección de objetos, la segmentación de instancias, la clasificación de imágenes y la estimación de poses. Por lo tanto, los usuarios pueden cambiar fácilmente a este nuevo modelo sin necesidad de ajustar sus flujos de trabajo. Además, la arquitectura mejorada de YOLO11 hace que las predicciones sean aún más precisas. De hecho, YOLO11m alcanza una mayor precisión media (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m.

YOLO11 también está diseñado para funcionar de manera eficiente en una variedad de plataformas, desde teléfonos inteligentes y otros dispositivos periféricos hasta sistemas en la nube más potentes. Esta flexibilidad garantiza un rendimiento fluido en diferentes configuraciones de hardware para aplicaciones en tiempo real. Además de eso, YOLO11 es más rápido y eficiente, lo que reduce los costes computacionales y acelera los tiempos de inferencia. Ya sea que estés utilizando el paquete de Python de Ultralytics o el Ultralytics HUB sin código, es fácil integrar YOLO11 en tus flujos de trabajo existentes.

El futuro de los modelos YOLO y la detección de objetos

El impacto de la detección avanzada de objetos en las aplicaciones en tiempo real y la IA en el borde ya se está sintiendo en todas las industrias. A medida que sectores como el petróleo y el gas, la sanidad y el comercio minorista dependen cada vez más de la IA, la demanda de una detección de objetos rápida y precisa sigue aumentando. YOLO11 tiene como objetivo responder a esta demanda permitiendo la detección de alto rendimiento incluso en dispositivos con una potencia de cálculo limitada. 

A medida que la IA en el borde crece, es probable que los modelos de detección de objetos como YOLO11 se vuelvan aún más esenciales para la toma de decisiones en tiempo real en entornos donde la velocidad y la precisión son críticas. Con las continuas mejoras en el diseño y la adaptabilidad, el futuro de la detección de objetos parece destinado a traer aún más innovaciones en una variedad de aplicaciones.

Conclusiones clave

La detección de objetos ha recorrido un largo camino, evolucionando desde métodos simples hasta las técnicas avanzadas de aprendizaje profundo que vemos hoy en día. Los modelos YOLO han estado en el corazón de este progreso, ofreciendo una detección en tiempo real más rápida y precisa en diferentes industrias. YOLO11 se basa en este legado, mejorando la eficiencia, reduciendo los costes computacionales y mejorando la precisión, lo que lo convierte en una opción fiable para una variedad de aplicaciones en tiempo real. Con los continuos avances en la IA y la visión artificial, el futuro de la detección de objetos parece brillante, con margen para aún más mejoras en velocidad, precisión y adaptabilidad.

¿Tienes curiosidad por la IA? ¡Mantente conectado con nuestra comunidad para seguir aprendiendo! Consulta nuestro repositorio de GitHub para descubrir cómo estamos utilizando la IA para crear soluciones innovadoras en industrias como la manufactura y la sanidad. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles