Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Conozca las siete tendencias futuras en la detección de objetos que impulsan los avances en la visión por ordenador y permiten crear sistemas basados en IA más rápidos, inteligentes y fiables.
Los robotaxis ya recorren las calles de San Francisco, y la gente ha pasado de buscar respuestas en Internet a chatear con la IA como parte de sus rutinas diarias. Estos cambios dejan claro que la inteligencia artificial (IA) avanza más rápido que nunca y se está convirtiendo en parte de la vida cotidiana.
Por ejemplo, una de las áreas que avanza a un ritmo increíble es la tecnología de visión por ordenador. También conocida como IA de visión, es un subcampo de la IA que se centra en ayudar a las máquinas a interpretar y comprender datos visuales.
La visión por ordenador ya está presente en todas partes, desde cajas registradoras automatizadas hasta drones que vigilan líneas eléctricas. Muchos de estos sistemas se basan en la detección de objetos, una tarea fundamental de la visión por ordenador que permite a las máquinas reconocer y localizar objetos específicos en imágenes y vídeos.
A medida que se acelera la adopción de la IA, también lo hace la demanda de una detección de objetos rápida y precisa. Los modelos de IA de visión como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 se han creado teniendo esto en cuenta, haciendo que la detección de objetos en tiempo real sea más fiable y accesible que nunca.
Fig. 1. Ejemplo de utilización de YOLO11 para la detección de objetos.
Con este rápido progreso, el campo está evolucionando rápidamente, y varias tendencias emergentes están dando forma a lo que será la próxima generación de detección de objetos. En este artículo exploraremos siete tendencias clave que están definiendo el futuro de la detección de objetos.
Comprender cómo funciona la detección de objetos
Antes de sumergirnos en las futuras tendencias de detección de objetos, vamos a dar un paso atrás y analizar qué es la detección de objetos, cómo funciona entre bastidores y cómo se ha desarrollado a lo largo de los años.
La detección de objetos es una parte fundamental de la visión por ordenador que permite a los sistemas de IA identificar lo que hay en una imagen y determinar exactamente dónde aparece cada elemento. Para aprender a hacerlo, los modelos se entrenan con grandes conjuntos de datos etiquetados que muestran objetos en muchas condiciones diferentes, como distintos ángulos, iluminación, tamaños y disposiciones.
Con el tiempo, el modelo capta los patrones y las señales visuales que separan un objeto de otro. Una vez entrenados, los modelos Vision AI como Ultralytics YOLO pueden escanear una imagen completa en una sola pasada, dibujando instantáneamente cuadros delimitadores y asignando etiquetas. Esta velocidad y precisión son las que hacen que la detección de objetos sea impactante en las aplicaciones del mundo real.
Fig. 2. Detección de un rayo X utilizando un modelo YOLO11 .(Fuente)
Un caso real de detección de objetos en acción
Por ejemplo, en el análisis de documentos, empresas como Prezent utilizan la detección de objetos para automatizar la difícil tarea de rediseñar diapositivas de presentaciones. Tradicionalmente, este proceso requería horas de ajustes manuales, identificando títulos, reposicionando cuadros de texto, alineando imágenes y reconstruyendo gráficos, todo ello mientras se intentaba mantener un diseño limpio y coherente.
Al convertir cada diapositiva en una imagen, los modelosYOLO Ultralytics pueden detect títulos, cuadros de texto, imágenes y gráficos conservando la estructura original. De este modo, el sistema conoce con precisión la disposición de cada elemento. Con esa información, todo el proceso de rediseño, antes lento y tedioso, puede automatizarse ahora en cuestión de segundos.
Evolución de la detección de objetos en visión por ordenador
He aquí un rápido vistazo a la evolución de la detección de objetos a lo largo de los años:
Los primeros días (1960-1970): Las primeras metodologías de detección de objetos procedían del procesamiento tradicional de imágenes y solían basarse en la comparación de plantillas. En este método, los ordenadores comparaban partes de una imagen (píxeles) con patrones de referencia predefinidos, o plantillas, para buscar similitudes. Como estas plantillas eran fijas y no podían adaptarse a los cambios, el método sólo funcionaba en condiciones ideales. Incluso pequeñas variaciones en la iluminación, la escala, la rotación o el aspecto del objeto eran suficientes para que fallara.
Detección basada en características (década de 1990-2000): Los investigadores pasaron entonces a la idea de las características artesanales y la extracción de características, en las que los humanos definían manualmente las pistas visuales que debía buscar un ordenador, como bordes, esquinas, formas o cambios de brillo. Técnicas como las cascadas de Haar (un método que busca patrones visuales simples, a menudo utilizado para la detección de rostros) y HOG (una técnica que capta la dirección de los bordes y contornos de una imagen), que a menudo se emparejaban con clasificadores SVM (un modelo de aprendizaje automático que separa los objetos en categorías), hicieron que el reconocimiento de objetos fuera más preciso y rápido. Incluso con estas mejoras, los sistemas seguían teniendo problemas para funcionar con la rapidez suficiente para su uso en tiempo real.
La revolución de los modelos de aprendizaje profundo (década de 2010): El aprendizaje profundo y las redes neuronales convolucionales (CNN), que son modelos diseñados para aprender patrones visuales escaneando imágenes en pequeñas regiones a la vez, redefinieron la detección de objetos. Modelos como R-CNN, Fast R-CNN y Faster R-CNN aprendieron patrones visuales directamente a partir de grandes cantidades de datos. Así se obtuvieron resultados de gran precisión, pero estos modelos seguían teniendo problemas de latencia.
Detección en tiempo real con YOLO (mediados de la década de 2010): YOLO (You Only Look Once) supuso un gran avance en la detección de objetos al predecir todos los recuadros delimitadores y las etiquetas de clase en una sola pasada por la red. Este enfoque unificado aumentó drásticamente la velocidad de detección y allanó el camino para las aplicaciones en tiempo real. Más o menos al mismo tiempo, otros modelos de una sola pasada, como el SSD (Single Shot Detector), también mejoraron el rendimiento al eliminar los pasos de propuesta de regiones, haciendo que la detección de objetos fuera más rápida y eficaz.
Avances recientes (década de 2020): Gracias a importantes mejoras en el diseño y la optimización de modelos, la década de 2020 ha traído consigo sistemas y marcos de detección de objetos de última generación más rápidos y precisos. Ultralytics YOLO11 introdujo actualizaciones arquitectónicas que mejoraron la velocidad de procesamiento, la precisión y el rendimiento general en tiempo real. Aprovechando este impulso, el próximo YOLO26 presenta un diseño aún más eficiente y ligero, lo que lo hace idóneo para una amplia gama de aplicaciones prácticas.
7 tendencias en detección de objetos que marcan el futuro
A continuación, vamos a explorar siete tendencias emergentes en la detección de objetos que están llamando la atención y creando revuelo en el espacio de la visión por ordenador.
1. Tareas de detección de objetos más inteligentes con edge computing
Los controles manuales tradicionales pueden ralentizar las líneas de producción y dejar margen para pasar por alto defectos. Para evitarlo, muchas empresas están recurriendo a sistemas de control de calidad basados en IA y en la detección de objetos.
De hecho, los estudios demuestran que la inspección visual basada en IA puede aumentar significativamente la productividad, a veces hasta en un 50%, y aumentar las tasas de detección de defectos hasta en un 90% en comparación con la inspección manual. Curiosamente, la nueva tendencia que está causando furor en este ámbito y en otras aplicaciones de IA de visión es cómo este análisis se realiza ahora directamente en los propios dispositivos a través de la computación de borde.
Con la computación de borde, la inteligencia se acerca al lugar donde se capturan los datos. Las cámaras y los sensores pueden ejecutar modelos de detección de objetos in situ, identificando al instante los objetos y determinando su ubicación sin depender del procesamiento en la nube. Esto les permite analizar fotogramas en tiempo real.
También reduce los retrasos en la red, disminuye el uso de ancho de banda y garantiza que los sistemas sigan funcionando aunque la conexión a Internet sea inestable o no esté disponible. En entornos tan dinámicos como la fabricación, este cambio al procesamiento en el dispositivo ofrece respuestas más rápidas, operaciones más fluidas y resultados mucho más fiables.
2. Diagnóstico sanitario basado en la visión
Los médicos suelen dedicar mucho tiempo a revisar las imágenes médicas para asegurarse de que no se pasa nada por alto. Hoy en día, muchos hospitales están empezando a explorar tecnología punta de detección de objetos para acelerar el proceso. Esto refleja una tendencia más amplia en la atención sanitaria, en la que Vision AI se utiliza cada vez más para facilitar una detección más temprana, un diagnóstico más rápido y un análisis de imágenes más coherente.
La detección de objetos puede utilizarse para resaltar rápidamente las áreas que pueden requerir atención, mejorando la toma de decisiones y los resultados de los pacientes. Por ejemplo, modelos como YOLO11 pueden ayudar a los médicos a detectar tumores cerebrales en resonancias magnéticas.
Fig. 3. Detección y localización de tumores cerebrales en resonancias magnéticas con ayuda de YOLO11.(Fuente)
Dado que YOLO11 puede reconocer patrones sutiles en las resonancias magnéticas, puede ayudar a identificar tumores pequeños o en estadios tempranos con mayor precisión. Aunque son los médicos quienes realizan el diagnóstico final, herramientas como YOLO11 pueden ayudar a agilizar su revisión al sacar a la luz antes posibles problemas y garantizar que no se pase por alto nada importante.
3. Vehículos autónomos y visión en tiempo real para una movilidad más segura
En las concurridas calles de las ciudades, los coches autoconducidos se basan en cámaras y sensores para vigilar continuamente su entorno. Estos sistemas detect peatones, vehículos, carriles y señales de tráfico en tiempo real. Con la ayuda de algoritmos de visión por ordenador y detección de objetos, un coche autónomo puede interpretar lo que ocurre a su alrededor y tomar decisiones de conducción autónoma más seguras.
En regiones con patrones de tráfico diversos y una mezcla de vehículos, estos sistemas se enfrentan a una complejidad añadida. Por ejemplo, un estudio reciente evaluó Ultralytics YOLOv8 con datos de tráfico recogidos en Hyderabad y Bangalore, donde diversos vehículos, como coches, autobuses, motocicletas, bicicletas y autorickshaws, comparten la calzada de forma dinámica y a menudo impredecible.
Los resultados mostraron que YOLOv8 funcionaba a la perfección en estos escenarios difíciles, detectando con precisión una amplia gama de objetos incluso en condiciones de tráfico denso y desestructurado. Esto pone de manifiesto una tendencia creciente en la movilidad autónoma: Los modelos de IA de visión son cada vez más capaces de manejar entornos complejos del mundo real que antes planteaban grandes retos a los sistemas automatizados.
4. Automatización y robótica inteligentes mediante visión por ordenador
Manipular objetos pequeños, clasificar objetos y materiales detectados o desplazarse por espacios desordenados siempre ha sido un reto para los robots. Estas tareas requieren una adaptación rápida y movimientos precisos, algo con lo que los sistemas de automatización tradicionales suelen tener dificultades en entornos impredecibles.
Una tendencia creciente en robótica es el uso de la IA de visión para dotar a los robots de la capacidad de percibir y responder a su entorno en tiempo real. Para explorar este cambio, un grupo de investigadores desarrolló recientemente un robot doméstico capaz de reconocer y clasificar objetos mientras se desplazaba por espacios interiores.
Utilizando modelos como YOLO11 para la detección de objetos, junto con una cámara de profundidad y una pinza flexible, el robot fue capaz por sí solo de identificar objetos de diferentes formas y tamaños y colocarlos en los lugares correctos. Este experimento muestra cómo la combinación de visión por ordenador con sistemas robóticos puede mejorar la conciencia espacial y la capacidad de respuesta.
Fig. 4. Robot que utiliza YOLO11 y sensores de profundidad para tomar decisiones inteligentes.(Fuente.)
También demuestra cómo las técnicas de IA más avanzadas ayudan a los robots a adaptarse a entornos desconocidos aprendiendo de patrones visuales a lo largo del tiempo. Con estos avances, los robots son cada vez más capaces y están más integrados en las tareas cotidianas, desde la asistencia doméstica a la logística de almacenes y la asistencia sanitaria.
5. Sistemas proactivos de vigilancia y seguridad
Los sistemas de vigilancia inteligentes están adoptando rápidamente la inteligencia artificial para detectar actividades inusuales o inseguras. Con los modelos de detección de objetos, las cámaras pueden reconocer posibles problemas en tiempo real y alertar a los equipos de seguridad de inmediato, lo que ayuda a mejorar tanto la prevención como la respuesta.
Por ejemplo, en instalaciones de fabricación donde el uso de smartphones está restringido por razones de seguridad, los sistemas de IA pueden detect automáticamente los teléfonos en el momento en que aparecen y track su movimiento utilizando YOLO y otros modelos de visión. Esto refleja una tendencia más amplia en el ámbito de la seguridad, donde la IA de visión se está utilizando para vigilar los entornos de forma más proactiva y responder más rápidamente a los riesgos potenciales.
Más allá de la detección, estos sistemas se combinan cada vez más con otras tecnologías para crear una solución de seguridad más completa. Los dispositivos periféricos permiten procesar las grabaciones localmente, lo que reduce los retrasos y mantiene la fiabilidad del rendimiento, mientras que herramientas como los sistemas de control de acceso o el reconocimiento facial pueden añadir una capa adicional de verificación. Juntas, estas tecnologías trabajan para crear redes de vigilancia más inteligentes y conectadas que puedan responder con rapidez y eficacia a situaciones del mundo real.
6. Realidad aumentada y detección de objetos en la vida cotidiana
En los almacenes de gran actividad y en las grandes superficies comerciales, los trabajadores a menudo tienen que gestionar muchas tareas al mismo tiempo. La realidad aumentada ayuda situando la orientación digital directamente en el mundo real. Cuando se combinan con la detección de objetos, los sistemas de realidad aumentada pueden identificar objetos, track su ubicación y mostrar información útil en tiempo real. De este modo, las tareas cotidianas resultan más fáciles, rápidas e intuitivas para las personas que los utilizan.
Una tendencia creciente en este espacio es el uso de Vision AI para convertir los dispositivos cotidianos en asistentes inteligentes capaces de comprender su entorno. A medida que la RA y la detección de objetos continúan fusionándose, los lugares de trabajo están empezando a adoptar herramientas inmersivas que favorecen la orientación manos libres y flujos de trabajo más eficientes.
Un buen ejemplo son las gafas de realidad aumentada con IA de Amazon, que se están desarrollando y probando actualmente. Estas gafas utilizan la detección de objetos y la clasificación de imágenes para reconocer paquetes, guiar a los trabajadores por la ruta correcta y registrar la prueba de entrega. Esto crea una experiencia más segura y manos libres que ayuda a los trabajadores a mantenerse concentrados y eficientes durante todo el día.
7. Dispositivos inteligentes impulsados por IoT para sistemas de visión en tiempo real.
Los dispositivos inteligentes se han convertido en sistemas capaces de ver, comprender y reaccionar ante su entorno. La Internet de los objetos (IoT) impulsa este cambio conectando cámaras, sensores, máquinas y aplicaciones inteligentes en redes que recopilan y procesan los datos en tiempo real.
Cuando el IoT se combina con la detección de objetos y la computación en los bordes, los dispositivos pueden interpretar la información visual, detectar anomalías y responder al instante sin intervención humana. Esto crea sistemas adaptables y eficientes que alimentan hogares, industrias y ciudades enteras.
Por ejemplo, un estudio reciente muestra cómo un sistema de protección de la fauna basado en IoT utiliza YOLOv8 para detect animales que se acercan a las granjas. Una vez detectados, el sistema toma decisiones basadas en inteligencia artificial para activar medidas disuasorias suaves, como luces o sonidos, y alejar a los animales de forma segura. Esto ayuda a evitar daños a los cultivos y favorece la coexistencia pacífica con la fauna local, mostrando cómo el IoT y la visión por ordenador pueden hacer que la agricultura sea más sostenible.
Otras tendencias interesantes de Vision AI
Además de estas siete tendencias en detección de objetos, he aquí algunos avances dignos de mención que configuran el futuro de la IA de visión:
Investigación sobre aprendizaje autosupervisado: Los nuevos métodos basados en el aprendizaje profundo permiten a los modelos aprender características visuales útiles a partir de grandes conjuntos de imágenes sin etiquetar, lo que ayuda a los sistemas de detección de objetos a mejorar sin depender en gran medida de las anotaciones manuales.
Auge de la detección de objetos basada en transformantes: Los transformadores son cada vez más comunes porque captan relaciones de largo alcance dentro de las imágenes, lo que proporciona a los modelos una mejor comprensión contextual y mejora la precisión de la detección.
Integración de Light Detection and Ranging (LiDAR) para una percepción 3D más rica: La combinación de LiDAR con la detección de objetos basada en cámaras proporciona información precisa sobre la profundidad, lo que refuerza la percepción 3D para aplicaciones como la navegación, la robótica y la conducción autónoma.
Conclusiones clave
La detección de objetos ha ido mucho más allá del reconocimiento básico de imágenes y ahora se utiliza para impulsar sistemas inteligentes capaces de tomar decisiones en tiempo real. De cara al futuro, es probable que los futuros modelos alcancen una precisión aún mayor y una comprensión más profunda del contexto, lo que permitirá que la IA de visión sea aún más fiable y versátil en todos los sectores. A medida que estas tecnologías sigan avanzando, darán forma a una nueva generación de sistemas de visión por ordenador más inteligentes y adaptables.