Mejora de la predicción de colisiones con Ultralytics YOLO

A pesar de tener cuidado en la carretera, pueden ocurrir accidentes. Un coche cambia de carril, un peatón se cruza o un ciclista acelera sin previo aviso. Estos momentos cotidianos son ejemplos de cómo los sistemas de predicción de colisiones pueden marcar la diferencia y ayudar a mantener la seguridad de todos.

Anteriormente, analizamos la predicción de la trayectoria de un balón y vimos cómo predecir la trayectoria de un balón en movimiento rápido ayuda a los analistas deportivos a comprender el movimiento y anticipar lo que va a ocurrir a continuación. La predicción de colisiones funciona de forma similar.

Estos sistemas de predicción miran al futuro. Al observar cómo se mueven los vehículos y los peatones, pueden detectar riesgos con antelación y ajustar su trayectoria o comportamiento antes de que las cosas tomen un giro peligroso (lo que también se conoce como planificación del movimiento o planificación de la trayectoria).

Las tecnologías informáticas clave de los sistemas de predicción de colisiones son la inteligencia artificial y sus subcampos, como la visión por ordenador y los métodos de previsión que ayudan a predecir cómo se moverán las cosas. Por ejemplo, modelos de visión por ordenador como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 pueden utilizarse para detect y track objetos como vehículos y peatones en tiempo real, y los modelos de previsión utilizan esa información para estimar sus próximos movimientos.

Fig. 1. Ejemplo de utilización de YOLO11 para detect objetos en la carretera(Fuente).

‍

El resultado es un sistema de IA que comprende lo que ocurre a su alrededor y ayuda a tomar decisiones más inteligentes en entornos dinámicos. En este artículo analizaremos cómo funciona la predicción de colisiones, los métodos que la sustentan y el papel que la visión por ordenador y los modelosYOLO Ultralytics pueden desempeñar en el proceso. Empecemos.

¿Qué es la predicción de colisiones?

La predicción de colisiones es la capacidad de un sistema de IA para comprender cómo se mueven los objetos y anticipar cuándo pueden acercarse mucho o entrar en contacto. Los distintos sistemas pueden utilizar esta información de muchas maneras, por ejemplo como apoyo a las funciones de seguridad, optimización de movimientos o coordinación de acciones en espacios compartidos.

Siempre que los objetos se mueven por un espacio compartido, ya sean coches en una autopista, carretillas elevadoras en el pasillo de un almacén o peatones cruzando una calle, la predicción de colisiones ayuda a los sistemas a comprender cómo pueden desarrollarse estas interacciones. En aplicaciones centradas en la seguridad, esta previsión puede utilizarse para reducir riesgos, mientras que en otros entornos puede servir de apoyo a tareas como la planificación de rutas, la sincronización o el movimiento coordinado.

Por ejemplo, en muchos vehículos nuevos equipados con sistemas avanzados de asistencia al conductor (ADAS), las cámaras y sensores vigilan la carretera y calculan la velocidad a la que el coche se acerca a objetos cercanos. Si el sistema detecta que una situación podría volverse insegura, alerta al conductor y, en algunos casos, el frenado automático puede ayudar a reducir el impacto.

Exploración de las cuatro etapas de la predicción de colisiones

La predicción de colisiones implica un proceso coordinado en el que diferentes componentes de IA trabajan juntos para identificar objetos, seguir su movimiento y estimar lo que puede ocurrir a continuación. Estos sistemas suelen funcionar en cuatro fases conectadas: detección de objetos, seguimiento de objetos, previsión de trayectorias y, por último, predicción de colisiones.

A continuación, veamos más de cerca cómo funciona cada etapa.

Detección de objetos

La detección de objetos es una tarea fundamental de la visión por ordenador en la que los modelos de IA de visión identifican y localizan objetos en una imagen o un fotograma de vídeo. Al analizar los datos de píxeles, un modelo de detección de objetos puede producir tres resultados principales: cuadros delimitadores, clases de objetos y puntuaciones de confianza. Los cuadros delimitadores muestran dónde se encuentra un objeto, las clases de objetos indican qué es, como un coche, un peatón o un ciclista, y las puntuaciones de confianza reflejan el grado de certeza del modelo sobre la predicción.

Los modelos de IA de visión como YOLO11 y YOLO26 se basan en estos fundamentos y admiten varias tareas relacionadas, como la detección de objetos, el seguimiento de objetos y la detección de cuadros delimitadores orientados (OBB). La detección de objetos puede indicar a un sistema de predicción qué hay en cada fotograma, el seguimiento de esos objetos a medida que se mueven y los recuadros delimitadores orientados proporcionan formas más precisas para los objetos que aparecen en diferentes ángulos.

En esta fase, un sistema de predicción de colisiones se centra exclusivamente en comprender lo que está presente en los datos visuales. Constituye la base de información de la que dependen todos los pasos posteriores, pero aún no tiene en cuenta cómo se moverán o interactuarán los objetos.

Visión general del seguimiento de objetos

Una vez detectados los objetos, el siguiente paso es track a lo largo de los fotogramas para que el sistema pueda comprender cómo se mueven con el tiempo. Mientras que la detección proporciona nuevos cuadros delimitadores en cada fotograma, el seguimiento de objetos añade continuidad al vincular esas detecciones a lo largo del tiempo.

Los algoritmos de seguimiento compatibles con el paquetePython Ultralytics , como ByteTrack o BoT-SORT, funcionan con modelos como YOLO11 utilizando los datos de detección de cada fotograma para seguir a los objetos mientras se mueven. Estos algoritmos asignan un ID único a cada objeto y lo utilizan para mantener esa identidad incluso cuando el objeto se mueve rápidamente o queda parcialmente oculto. Esto crea un historial de seguimiento fluido que capta cómo se mueve el objeto.

Fig. 2. Asignación de identificadores únicos a diferentes detecciones mediante YOLO (Fuente)

‍

A continuación le mostramos cómo funcionan estos dos métodos de seguimiento:

ByteTrack: Utiliza detecciones de alta y baja confianza para mantener IDs de objetos consistentes, con predicciones de movimiento de un Filtro Kalman que ayuda al rastreador a mantenerse estable cuando los objetos se mueven rápidamente o son brevemente difíciles de detect.
BoT-SORT: Este algoritmo amplía el algoritmo SORT combinando las predicciones de movimiento del filtro Kalman con señales de apariencia, lo que permite al rastreador seguir objetos de forma más fiable en escenas abarrotadas o con oclusión parcial.

Para medir el rendimiento de estos métodos de seguimiento, los investigadores los evalúan en conjuntos de datos y referencias de seguimiento multiobjeto (MOT). Además, las métricas utilizadas habitualmente incluyen la precisión del seguimiento de objetos múltiples (MOTA), que refleja la calidad general del seguimiento; la puntuación F1 de identificación (IDF1), que mide la coherencia con la que se mantienen las identidades de los objetos; y la precisión del seguimiento de orden superior (HOTA), que ofrece una visión equilibrada tanto del rendimiento de la detección como de la precisión de la asociación.

Comprender la previsión de trayectorias

Tras rastrear un objeto a lo largo de varios fotogramas, el siguiente paso consiste en predecir a dónde se dirigirá a continuación. Es lo que se conoce como previsión de trayectoria. Mientras que la detección encuentra los objetos y el seguimiento sigue sus movimientos, la previsión mira hacia delante y estima sus posiciones futuras.

La información procedente de la detección y el seguimiento, como el cuadro delimitador de un objeto, su posición en los distintos fotogramas y el ID asignado, puede utilizarse para calcular características del movimiento como la velocidad, la dirección y los patrones de movimiento. Esta información proporciona al modelo de previsión los datos que necesita para estimar dónde es probable que se encuentre el objeto en los próximos segundos.

En los casos en que los datos de seguimiento contienen lagunas o saltos bruscos, las técnicas de interpolación ayudan a reconstruir trayectorias más suaves y coherentes. Esto garantiza que el modelo de previsión reciba datos de movimiento de alta calidad en lugar de datos de posición ruidosos o incompletos.

Fig. 3. Visualización de la predicción de la trayectoria de un coche.(Fuente)

‍

Para realizar estas predicciones, muchos sistemas se basan en modelos de aprendizaje profundo diseñados para comprender cómo cambia el movimiento de un objeto a lo largo del tiempo. Analizando secuencias de posiciones pasadas y las características de movimiento derivadas de ellas, estos modelos aprenden patrones de movimiento comunes y utilizan ese conocimiento para predecir trayectorias futuras.

Estos son algunos de los enfoques de aprendizaje profundo y aprendizaje automático más utilizados para la previsión de trayectorias:

Redes neuronales recurrentes (RNN): Las RNN son modelos de aprendizaje profundo diseñados para trabajar con secuencias, como una serie de fotogramas de vídeo. Pueden mantener una memoria de posiciones anteriores y utilizar esa información para comprender cómo se ha estado moviendo un objeto. Esto ayuda al sistema a reconocer patrones de movimiento sencillos, como acelerar, ralentizar o moverse en línea recta.

Redes de memoria a largo plazo (LSTM): Las LSTM son un tipo más avanzado de RNN que pueden recordar información durante periodos más largos. Esto les permite captar movimientos más complejos, como un vehículo que se dispone a girar o un peatón que cambia de dirección. Como pueden track tendencias más largas, suelen producir predicciones más fiables en entornos con mucho tráfico.

Transformers: Transformers procesan secuencias de movimiento completo y utilizan la atención para centrarse en los detalles más importantes de estas secuencias. Esto los hace especialmente eficaces en escenas en las que interactúan varios objetos, como coches que se cruzan o peatones que se cruzan.

Estos modelos pueden predecir trayectorias tanto a corto como a largo plazo. Las previsiones a corto plazo, normalmente inferiores a dos segundos, suelen ser las más precisas, mientras que las predicciones a más largo plazo, como de dos a seis segundos, proporcionan más previsión pero van acompañadas de una mayor incertidumbre.

Unirlo todo: Algoritmos de detección de colisiones

En la última etapa, la predicción de colisión, el sistema utiliza todo lo que ha aprendido hasta el momento: qué es cada objeto (detección), cómo se ha movido (seguimiento) y hacia dónde es probable que se dirija a continuación (predicción). En esta etapa se comprueba si alguna de las trayectorias previstas puede cruzarse de forma que provoque una colisión.

Fig. 4. Funcionamiento de un sistema de predicción de colisiones(Fuente)

‍

En el caso de los vehículos autónomos, un sistema de comprobación de colisiones compara las trayectorias futuras de objetos cercanos, como coches, peatones y ciclistas. Si dos trayectorias previstas se solapan o se acercan peligrosamente, marca la situación como una posible colisión de vehículos. Para saber lo urgente que puede ser el riesgo de colisión, el sistema calcula también un valor conocido como tiempo hasta la colisión.

El tiempo hasta la colisión (TTC) es una medida clave en entornos de movimiento rápido. Calcula cuánto tiempo falta para que dos objetos colisionen si siguen a la velocidad y dirección actuales. Cuando el TTC desciende por debajo de un umbral determinado, el sistema puede responder emitiendo advertencias, aplicando los frenos o ajustando su trayectoria prevista.

Aplicaciones reales de la predicción de colisiones

La predicción de colisiones está adquiriendo una importancia crucial en muchos sectores, como la gestión del tráfico, las infraestructuras urbanas inteligentes, la automatización industrial y la robótica móvil. A medida que avanzan la visión por ordenador y los modelos de predicción, estos sistemas son cada vez más capaces de anticiparse a los movimientos.

Ahora que entendemos mejor cómo funcionan la predicción de colisiones y la previsión de trayectorias, veamos algunos estudios de investigación interesantes que muestran cómo pueden utilizarse estos métodos en diversos entornos del mundo real.

Predicción de colisiones YOLO para vehículos autónomos de emergencia

Navegar por entornos abarrotados e impredecibles es uno de los retos más difíciles para los sistemas autónomos, especialmente cuando los peatones se mueven de formas que no siguen patrones claros. Los vehículos de emergencia se enfrentan a este problema aún con más frecuencia, ya que tienen que moverse rápidamente a altas velocidades a través de espacios públicos densos sin depender de carreteras estructuradas, marcas de carril o comportamiento previsible de los peatones.

En este tipo de escenarios, comprender dónde se encuentran las personas y cómo podrían moverse en los próximos segundos resulta esencial para evitar accidentes. Por ejemplo, un reciente estudio de investigación exploró este reto mediante la construcción de un sistema completo de predicción de colisiones para un vehículo autónomo de emergencia (EAV) que opera en entornos con muchos peatones.

Cómo funciona el sistema de predicción de colisiones YOLO

He aquí un vistazo a cómo funciona esta metodología:

Detección de peatones mediante YOLO: Un detector YOLO identifica a los peatones en cada fotograma de la cámara y genera cuadros delimitadores para cada persona visible.
‍
Seguimiento del movimiento con ByteTrack: El algoritmo ByteTrack enlaza estas detecciones a través de los fotogramas, dando a cada peatón un ID consistente y creando un historial de movimiento que muestra cómo se mueven con el tiempo.
‍
Estimación de la posición en el mundo real: El mapeo de perspectiva inversa (IPM) convierte las coordenadas de píxeles 2D en posiciones aproximadas en el plano del suelo, lo que ayuda al sistema a comprender dónde se encuentran los peatones en el espacio real en relación con el vehículo.
‍
Generación de una vista de pájaro mediante un cGAN: un GAN condicional, un modelo de IA que traduce un formato de imagen a otro, crea una representación de la escena a vista de pájaro. Esta representación de arriba abajo facilita la interpretación de la posición de los peatones y su entorno.
‍
Predicción de trayectorias con un modelo LSTM: A partir de las posiciones y patrones de movimiento anteriores de cada peatón, un modelo LSTM predice hacia dónde es probable que se desplacen en los próximos segundos.
‍
Detección eficaz de colisiones mediante conos de colisión: Las trayectorias previstas se comparan mediante el método de conos de colisión, que determina si las trayectorias del vehículo y de cualquier peatón están en camino de cruzarse.
‍
Evitación de colisiones mediante señalización: Si el sistema predice una colisión, activa una señal auditiva (como un claxon o un timbre) en el momento óptimo. El momento se elige para influir en el comportamiento de los peatones y darles la oportunidad de acelerar o frenar y ponerse a salvo.

Garantizar la seguridad de los peatones en las ciudades mediante la visión periférica y YOLO

Del mismo modo, otro método de prevención de colisiones va más allá de los vehículos y se centra en la propia infraestructura. En lugar de confiar en los sensores del interior de un coche, este método utiliza cámaras inteligentes instaladas en pasos de peatones e intersecciones para controlar en tiempo real cómo se mueven los peatones y los vehículos. Estos lugares son a menudo impredecibles: la gente puede incorporarse a la calzada de repente, los ciclistas pueden zigzaguear entre el tráfico y los conductores no siempre reducen la velocidad, por lo que detectar los riesgos a tiempo es vital.

Un interesante estudio exploró esta idea mediante un sistema llamado NAVIBox, un dispositivo de visión de borde diseñado para predecir los riesgos entre vehículos y peatones directamente en la intersección. El sistema utiliza Ultralytics YOLOv8 para detect peatones y vehículos, y un rastreador Centroid ligero para seguirlos a lo largo de los fotogramas. De este modo se crean historiales de movimiento breves y fiables, que luego se perfeccionan mediante una transformación de perspectiva que convierte la vista angular de CCTV en un trazado más claro de la carretera a vista de pájaro.

Con estas trayectorias refinadas, NAVIBox puede estimar cómo es probable que se muevan los usuarios de la carretera en los próximos segundos y comprobar si sus trayectorias pueden cruzarse (lo que también se conoce como prueba de intersección). Cuando el sistema detecta una interacción de riesgo, envía inmediatamente advertencias a través de pantallas para los conductores y altavoces para los peatones, sin depender de un servidor remoto o una conexión de red. Las pruebas realizadas en zonas urbanas reales han demostrado que NAVIBox funciona con la rapidez suficiente para dar una respuesta en tiempo real y puede identificar con precisión posibles situaciones de colisión, lo que lo convierte en una práctica herramienta de seguridad para cruces urbanos muy transitados.

Fig. 5. Predicción del riesgo de colisión entre vehículos y peatones.(Fuente)

‍

Ventajas e inconvenientes de la detección y predicción de colisiones

Estas son algunas de las ventajas de utilizar sistemas predictivos de colisión basados en IA:

Mejora el conocimiento de la situación: Los sistemas de IA mapean continuamente cómo se mueven los objetos en un entorno, proporcionando una comprensión más rica del flujo de multitudes a gran escala, el comportamiento del tráfico o las trayectorias de las máquinas.
‍
Información basada en datos para la planificación a largo plazo: Al registrar las detecciones, los cuasi accidentes y los patrones de movimiento, los sistemas de IA proporcionan análisis que los planificadores urbanos, los equipos de seguridad y los operadores de flotas pueden utilizar para rediseñar las intersecciones, mejorar la señalización o perfeccionar las políticas operativas.

Prevención de riesgos rentable: Al detectar los riesgos antes de que se agraven, estos sistemas pueden permitir evitar costosos accidentes, reclamaciones al seguro o reparaciones de equipos.

A pesar de sus ventajas, los sistemas sin colisión también se enfrentan a ciertas limitaciones. He aquí algunos retos a tener en cuenta:

Limitaciones en la colocación de sensores y cámaras: Las cámaras mal colocadas o en ángulo pueden distorsionar el tamaño o la distancia del objeto, lo que hace que la estimación de la profundidad y la predicción de la trayectoria sean menos fiables.
‍
Oclusión: Los objetos pueden quedar parcial o totalmente ocultos detrás de otros. Esto dificulta el seguimiento de los objetos, ya que el modelo pierde continuidad visual.
‍
Condiciones ambientales: La baja iluminación, la luz solar intensa, la lluvia, la niebla o la mala calidad de la cámara pueden reducir la capacidad del modelo para ver la escena con claridad, lo que afecta a la precisión.

Conclusiones clave

La predicción de colisiones aúna dos potentes capacidades: la visión por ordenador, que permite a los sistemas comprender lo que está ocurriendo en el entorno en ese momento, y la previsión de trayectorias, que les ayuda a anticipar lo que es probable que ocurra a continuación.

Combinando estos puntos fuertes, las máquinas pueden detect objetos en movimiento en tiempo real y predecir cómo pueden interactuar esos objetos en los segundos siguientes. A medida que sigan evolucionando las técnicas de visión por ordenador y predicción, es probable que la predicción de colisiones se convierta en la clave para construir sistemas autónomos más seguros, fiables y escalables.

Consulte nuestra comunidad y el repositorio de GitHub para obtener más información sobre la IA. Explore aplicaciones como la IA en la sanidad y la visión por ordenador en la fabricación en nuestras páginas de soluciones. Descubra nuestras opciones de licencia y empiece a construir hoy mismo.

Mejora de la predicción de colisiones con los modelosYOLO Ultralytics

¿Qué es la predicción de colisiones?

Exploración de las cuatro etapas de la predicción de colisiones

Detección de objetos

Visión general del seguimiento de objetos

Comprender la previsión de trayectorias

Unirlo todo: Algoritmos de detección de colisiones

Aplicaciones reales de la predicción de colisiones

Predicción de colisiones YOLO para vehículos autónomos de emergencia

Cómo funciona el sistema de predicción de colisiones YOLO

Garantizar la seguridad de los peatones en las ciudades mediante la visión periférica y YOLO

Ventajas e inconvenientes de la detección y predicción de colisiones

Conclusiones clave

Leer más en esta categoría

Cómo en Ultralytics YOLO sean más rápidos en tu chip favorito.

Exploración de la detección de objetos pequeños con Ultralytics YOLO11

Usa la estimación de la postura para mejorar tu técnica de carrera

¡Construyamos juntos el futuro
de la IA!

Mejora de la predicción de colisiones con los modelosYOLO Ultralytics

¿Qué es la predicción de colisiones?

Exploración de las cuatro etapas de la predicción de colisiones

Detección de objetos

Visión general del seguimiento de objetos

Comprender la previsión de trayectorias

Unirlo todo: Algoritmos de detección de colisiones

Aplicaciones reales de la predicción de colisiones

Predicción de colisiones YOLO para vehículos autónomos de emergencia

Cómo funciona el sistema de predicción de colisiones YOLO

Garantizar la seguridad de los peatones en las ciudades mediante la visión periférica y YOLO

Ventajas e inconvenientes de la detección y predicción de colisiones

Conclusiones clave

Leer más en esta categoría

Cómo en Ultralytics YOLO sean más rápidos en tu chip favorito.

Exploración de la detección de objetos pequeños con Ultralytics YOLO11

Usa la estimación de la postura para mejorar tu técnica de carrera

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!