Mejorando la predicción de colisiones con modelos Ultralytics YOLO
Aprende cómo la información de los modelos Ultralytics YOLO ayuda a los sistemas de predicción de colisiones a tomar decisiones más seguras y rápidas en entornos dinámicos.

A pesar de tener cuidado en la carretera, los accidentes pueden ocurrir. Un coche cambia de carril, un peatón cruza por donde no debe o un ciclista acelera sin previo aviso. Estos momentos cotidianos son ejemplos de situaciones en las que los sistemas de predicción de colisiones pueden marcar una verdadera diferencia y ayudar a mantener a todos a salvo.
Anteriormente, analizamos la predicción de la trayectoria de un balón y vimos cómo pronosticar la trayectoria de un objeto que se mueve rápidamente ayuda a la analítica deportiva a comprender el movimiento y anticipar lo que sucederá a continuación. La predicción de colisiones funciona de manera similar.
Estos sistemas de predicción esencialmente miran hacia el futuro. Al observar cómo se mueven los vehículos y los peatones, pueden detectar riesgos de forma temprana y ajustar su trayectoria o comportamiento antes de que las cosas tomen un rumbo peligroso (lo que también se conoce como planificación de movimiento o planificación de trayectoria).
Las tecnologías informáticas clave detrás de los sistemas de predicción de colisiones son la inteligencia artificial y sus subcampos, como la visión artificial y los métodos de pronóstico que ayudan a predecir cómo se moverán los objetos. Por ejemplo, modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 pueden utilizarse para detectar y rastrear objetos como vehículos y peatones en tiempo real, y los modelos de pronóstico utilizan esa información para estimar sus próximos movimientos.

Fig 1. Un ejemplo de YOLO11 utilizándose para detectar objetos en la carretera (Fuente).
El resultado es un sistema de IA que entiende lo que sucede a su alrededor y apoya la toma de decisiones más inteligente en entornos dinámicos. En este artículo, exploraremos cómo funciona la predicción de colisiones, los métodos detrás de ella y el papel que pueden desempeñar la visión artificial y los modelos Ultralytics YOLO en este proceso. ¡Empecemos!
Link to this section¿Qué es la predicción de colisiones?#
La predicción de colisiones es la capacidad de un sistema de IA para comprender cómo se mueven los objetos y anticipar cuándo pueden acercarse mucho o entrar en contacto. Diferentes sistemas pueden utilizar esta información de muchas formas, incluyendo el soporte a funciones de seguridad, la optimización del movimiento o la coordinación de acciones en espacios compartidos.
Dondequiera que los objetos se muevan a través de un espacio compartido, ya sean coches en una autopista, carretillas elevadoras en los pasillos de un almacén o peatones cruzando una calle, la predicción de colisiones ayuda a los sistemas a entender cómo pueden desarrollarse estas interacciones. En aplicaciones centradas en la seguridad, esta previsión puede utilizarse para reducir el riesgo, mientras que en otros entornos, puede apoyar tareas como la planificación de rutas, el cronometraje o el movimiento coordinado.
Por ejemplo, en muchos vehículos nuevos equipados con sistemas avanzados de asistencia al conductor, o ADAS, las cámaras y sensores monitorean la carretera y estiman qué tan rápido se acerca el coche a los objetos cercanos. Si el sistema detecta que una situación podría volverse insegura, alerta al conductor y, en algunos casos, el frenado automático puede ayudar a reducir el impacto.
Link to this sectionExplorando las cuatro etapas de la predicción de colisiones#
La predicción de colisiones implica un proceso coordinado en el que diferentes componentes de IA trabajan juntos para identificar objetos, seguir su movimiento y estimar lo que podría suceder a continuación. Estos sistemas suelen trabajar a través de cuatro etapas conectadas: detección de objetos, seguimiento de objetos, pronóstico de trayectoria y, finalmente, predicción de colisiones, donde cada etapa se basa en la precisión de la anterior.
A continuación, veamos más de cerca cómo funciona cada etapa.
Link to this sectionUn vistazo a la detección de objetos#
La detección de objetos es una tarea fundamental de la visión artificial en la que los modelos de IA identifican y localizan objetos en una imagen o fotograma de video. Al analizar los datos de los píxeles, un modelo de detección de objetos puede producir tres salidas principales: cuadros delimitadores (bounding boxes), clases de objetos y puntuaciones de confianza. Los cuadros delimitadores muestran dónde está un objeto, las clases indican qué es (como un coche, peatón o ciclista) y las puntuaciones de confianza reflejan qué tan seguro está el modelo sobre la predicción.
Los modelos de visión artificial como YOLO11 y YOLO26 se basan en este fundamento y admiten varias tareas relacionadas, incluyendo la detección de objetos, el seguimiento de objetos y la detección de cuadros delimitadores orientados (OBB). La detección de objetos puede indicar a un sistema de predicción qué hay en cada fotograma, el seguimiento sigue a esos objetos a medida que se mueven, y los cuadros delimitadores orientados proporcionan formas más precisas para objetos que aparecen en diferentes ángulos.
En esta etapa, un sistema de predicción de colisiones se centra puramente en comprender qué está presente en los datos visuales. Forma la capa base de información de la que dependen todos los pasos posteriores, pero aún no considera cómo se moverán o interactuarán los objetos.
Link to this sectionUna descripción general del seguimiento de objetos#
Una vez que se detectan los objetos, el siguiente paso es rastrearlos a través de los fotogramas para que el sistema pueda entender cómo se mueven con el tiempo. Mientras que la detección proporciona nuevos cuadros delimitadores en cada fotograma, el seguimiento de objetos añade continuidad al vincular esas detecciones a lo largo del tiempo.
Los algoritmos de seguimiento compatibles con el paquete de Python de Ultralytics, como ByteTrack o BoT-SORT, funcionan con modelos como YOLO11 utilizando los datos de detección de cada fotograma para seguir a los objetos a medida que se mueven. Estos algoritmos asignan un ID único a cada objeto y lo usan para mantener esa identidad incluso cuando el objeto se mueve rápidamente o queda parcialmente oculto. Esto crea un historial de seguimiento fluido que captura cómo se mueve el objeto.

Fig 2. Un vistazo a la asignación de IDs únicos para diferentes detecciones usando YOLO (Fuente)
Aquí tienes un vistazo rápido a cómo funcionan estos dos métodos de seguimiento:
- ByteTrack: Utiliza detecciones de confianza alta y baja para mantener IDs de objetos consistentes, con predicciones de movimiento de un Filtro de Kalman que ayudan al rastreador a mantenerse estable cuando los objetos se mueven rápidamente o son difíciles de detectar brevemente.
- BoT-SORT: Este algoritmo extiende SORT combinando las predicciones de movimiento del Filtro de Kalman con pistas de apariencia, lo que permite al rastreador seguir objetos de forma más fiable en escenas concurridas o durante oclusiones parciales.
Para medir qué tan bien funcionan estos métodos de seguimiento, los investigadores los evalúan en conjuntos de datos y puntos de referencia de seguimiento de múltiples objetos (MOT) establecidos. Además, las métricas utilizadas comúnmente incluyen la precisión de seguimiento de múltiples objetos (MOTA), que refleja la calidad general del seguimiento; la puntuación F1 de identificación (IDF1), que mide la consistencia con la que se mantienen las identidades de los objetos; y la precisión de seguimiento de orden superior (HOTA), que ofrece una visión equilibrada tanto del rendimiento de la detección como de la precisión de la asociación.
Link to this sectionEntendiendo el pronóstico de trayectoria#
Después de rastrear un objeto a través de múltiples fotogramas, el siguiente paso es predecir hacia dónde irá a continuación. Esto se conoce como pronóstico de trayectoria. Mientras que la detección encuentra objetos y el seguimiento sigue cómo se mueven, el pronóstico mira hacia adelante y estima sus posiciones futuras.
La información de la detección y el seguimiento, como el cuadro delimitador de un objeto, su posición a través de los fotogramas y el ID asignado, se puede utilizar para calcular características de movimiento como la velocidad, la dirección y los patrones de movimiento. Estos conocimientos derivados proporcionan al modelo de pronóstico los datos que necesita para estimar dónde es probable que esté el objeto en los próximos segundos.
En los casos en que los datos de seguimiento contengan lagunas o saltos abruptos, las técnicas de interpolación ayudan a reconstruir trayectorias más fluidas y consistentes. Esto garantiza que el modelo de pronóstico reciba una entrada de movimiento de alta calidad en lugar de datos de posición ruidosos o incompletos.

Fig 3. Una visualización de la predicción de la trayectoria de un coche. (Fuente)
Para hacer estas predicciones, muchos sistemas confían en modelos de aprendizaje profundo diseñados para entender cómo cambia el movimiento de un objeto a lo largo del tiempo. Al analizar secuencias de posiciones pasadas y las características de movimiento derivadas de ellas, estos modelos aprenden patrones de movimiento comunes y utilizan ese conocimiento para pronosticar trayectorias futuras.
Aquí tienes algunos enfoques de aprendizaje profundo y aprendizaje automático de uso común para el pronóstico de trayectoria:
-
Redes Neuronales Recurrentes (RNNs): Las RNNs son modelos de aprendizaje profundo diseñados para trabajar con secuencias, como una serie de fotogramas de video. Pueden mantener un recuerdo de las posiciones anteriores y usar esa información para entender cómo se ha estado moviendo un objeto. Esto ayuda al sistema a reconocer patrones de movimiento simples como acelerar, desacelerar o moverse en línea recta.
-
Redes de Memoria a Largo Plazo (LSTMs): Las LSTMs son un tipo más avanzado de RNN que puede recordar información durante períodos más largos. Esto les permite capturar movimientos más complejos, como un vehículo preparándose para girar o un peatón cambiando de dirección. Debido a que pueden rastrear tendencias más largas, a menudo producen predicciones más fiables en entornos concurridos.
-
Transformers: Los Transformers procesan secuencias de movimiento completas y utilizan mecanismos de atención para centrarse en los detalles más importantes de estas secuencias. Esto los hace especialmente efectivos en escenas donde interactúan múltiples objetos, como coches incorporándose o peatones cruzando.
Estos modelos pueden predecir tanto trayectorias a corto plazo como a largo plazo. Los pronósticos a corto plazo, generalmente menores a dos segundos, tienden a ser los más precisos, mientras que las predicciones en ventanas más largas, como de dos a seis segundos, proporcionan más previsión pero vienen con mayor incertidumbre.
Link to this sectionUniendo todo: Algoritmos de detección de colisiones#
En la etapa final, la predicción de colisiones, el sistema utiliza todo lo que ha aprendido hasta ahora: qué es cada objeto (detección), cómo se ha movido (seguimiento) y hacia dónde es probable que vaya a continuación (pronóstico). Este paso comprueba si alguna de las trayectorias predichas podría cruzarse de una manera que pueda provocar una colisión.

Fig 4. Cómo funciona un sistema de predicción de colisiones (Fuente)
En el caso de vehículos autónomos, un sistema de verificación de colisiones compara las trayectorias futuras de objetos cercanos como coches, peatones y ciclistas. Si dos trayectorias predichas se superponen o se acercan peligrosamente, marca la situación como una colisión potencial de vehículos. Para entender qué tan urgente puede ser el riesgo de colisión, el sistema también calcula un valor conocido como tiempo hasta la colisión.
El tiempo hasta la colisión (TTC) es una medición clave en entornos de movimiento rápido. Estima cuánto tiempo queda antes de que dos objetos colisionen si continúan a sus velocidades y direcciones actuales. Cuando el TTC cae por debajo de cierto umbral, el sistema puede responder emitiendo advertencias, aplicando los frenos o ajustando su trayectoria planificada.
Link to this sectionAplicaciones en el mundo real de la predicción de colisiones#
La predicción de colisiones se está volviendo crucial en muchas industrias, incluyendo la gestión del tráfico, la infraestructura de ciudades inteligentes, la automatización industrial y la robótica móvil. A medida que los modelos de visión artificial y pronóstico de vanguardia continúan avanzando, estos sistemas se vuelven más capaces de anticipar el movimiento.
Ahora que comprendemos mejor cómo funcionan la predicción de colisiones y el pronóstico de trayectoria, echemos un vistazo a algunos estudios de investigación interesantes que muestran cómo se pueden utilizar estos métodos en diversos entornos del mundo real.
Link to this sectionPredicción de colisiones impulsada por YOLO para vehículos autónomos de emergencia#
Navegar en entornos concurridos e impredecibles es uno de los desafíos más difíciles para los sistemas autónomos, especialmente cuando los peatones se mueven de maneras que no siguen patrones claros. Los vehículos de emergencia enfrentan este problema aún más a menudo, ya que necesitan moverse rápidamente a altas velocidades a través de espacios públicos densos sin depender de carreteras estructuradas, señalización de carriles o comportamiento peatonal predecible.
En este tipo de escenarios, comprender dónde están las personas y cómo podrían moverse en los próximos segundos se vuelve esencial para evitar accidentes. Por ejemplo, un estudio de investigación reciente exploró este desafío construyendo una tubería de predicción de colisiones completa para un Vehículo Autónomo de Emergencia (EAV) operando en entornos ricos en peatones.
Link to this sectionCómo funciona la tubería de predicción de colisiones impulsada por YOLO#
Aquí tienes un vistazo a cómo funciona esta metodología:
- Detección de peatones usando YOLO: Un detector basado en YOLO identifica a los peatones en cada fotograma de la cámara y genera cuadros delimitadores para cada persona visible.
- Seguimiento de movimiento con ByteTrack: El algoritmo ByteTrack vincula estas detecciones a través de los fotogramas, dando a cada peatón un ID consistente y creando un historial de movimiento que muestra cómo se mueven con el tiempo.
- Estimación de posición en el mundo real: El Mapeo de Perspectiva Inversa (IPM) convierte las coordenadas de píxeles 2D en posiciones aproximadas en el plano del suelo, ayudando al sistema a entender dónde están los peatones en el espacio del mundo real en relación con el vehículo.
- Generación de vista desde arriba (bird’s-eye-view) usando una cGAN: Una GAN condicional, un modelo de IA que traduce un formato de imagen a otro, crea una representación de vista desde arriba de la escena. Este diseño cenital facilita la interpretación de las posiciones de los peatones y su entorno.
- Predicción de trayectoria con un modelo LSTM: Utilizando las posiciones pasadas y los patrones de movimiento de cada peatón, un modelo LSTM predice hacia dónde es probable que se muevan en los próximos segundos.
- Detección eficiente de colisiones usando conos de colisión: Las trayectorias predichas se comparan utilizando el método de cono de colisión, que determina si las trayectorias del vehículo y de cualquier peatón están en camino de intersectarse.
- Evitación de colisiones mediante señalización: Si el sistema predice una colisión, activa una señal auditiva (como una bocina o campana) en el momento óptimo. El tiempo se elige para influir en el comportamiento del peatón y darle la oportunidad de acelerar o desacelerar y ponerse a salvo.
Link to this sectionGarantizar la seguridad peatonal en las ciudades usando visión de borde (edge vision) y YOLO#
De manera similar, otro enfoque para la prevención de colisiones mira más allá de los vehículos y se centra en la infraestructura misma. En lugar de confiar en sensores dentro de un coche, este método utiliza cámaras inteligentes instaladas en pasos de peatones e intersecciones para monitorear cómo se mueven los peatones y vehículos en tiempo real. Estas ubicaciones suelen ser impredecibles; la gente puede entrar a la carretera repentinamente, los ciclistas pueden zigzaguear entre el tráfico y los conductores no siempre desaceleran, por lo que detectar los riesgos a tiempo es vital.
Un estudio interesante exploró esta idea a través de un sistema llamado NAVIBox, un dispositivo de visión de borde diseñado para predecir los riesgos entre vehículos y peatones directamente en la intersección. El sistema utiliza el modelo Ultralytics YOLOv8 para detectar peatones y vehículos, y un rastreador de centroide ligero para seguirlos a través de los fotogramas. Esto crea historiales de movimiento cortos y fiables, que luego se refinan utilizando una transformación de perspectiva que convierte la vista angulada de CCTV en un diseño de vista desde arriba más claro de la carretera.
Con estas trayectorias refinadas, NAVIBox puede estimar cómo es probable que se muevan los usuarios de la carretera en los próximos segundos y verificar si sus trayectorias pueden cruzarse (también referido como una prueba de intersección). Cuando el sistema detecta una interacción riesgosa, envía advertencias inmediatamente a través de pantallas para los conductores y altavoces para los peatones, sin depender de un servidor remoto o conexión de red. Las pruebas en ubicaciones urbanas reales demostraron que NAVIBox funciona lo suficientemente rápido para una respuesta real en tiempo real y puede identificar con precisión escenarios de colisión potenciales, lo que lo convierte en una herramienta de seguridad práctica para intersecciones urbanas concurridas.

Fig 5. Predicción del riesgo de colisión entre vehículos y peatones. (Fuente)
Link to this sectionPros y contras de la detección y predicción de colisiones#
Aquí tienes algunas ventajas de utilizar sistemas de predicción de colisiones habilitados por IA:
-
Mejora la conciencia situacional: Los sistemas de IA mapean continuamente cómo se mueven los objetos en un entorno, proporcionando una comprensión más rica del flujo de multitudes a gran escala, el comportamiento del tráfico o las trayectorias de las máquinas.
-
Perspectivas basadas en datos para la planificación a largo plazo: Al registrar detecciones, casi colisiones y patrones de movimiento, los sistemas de IA proporcionan analíticas que los planificadores urbanos, equipos de seguridad y operadores de flotas pueden usar para rediseñar intersecciones, mejorar la señalización o refinar políticas operativas.
-
Prevención de riesgos rentable: Al detectar riesgos antes de que se agraven, estos sistemas pueden hacer posible evitar accidentes costosos, reclamaciones de seguros o reparaciones de equipos.
A pesar de sus beneficios, los sistemas libres de colisiones también enfrentan ciertas limitaciones. Aquí tienes algunos desafíos a considerar:
- Restricciones de ubicación de sensores y cámaras: Las cámaras mal posicionadas o anguladas pueden distorsionar el tamaño o la distancia de los objetos, haciendo que la estimación de profundidad y la predicción de trayectoria sean menos fiables.
- Oclusión: Los objetos pueden quedar parcial o totalmente ocultos detrás de otros. Esto dificulta el seguimiento de objetos ya que el modelo pierde continuidad visual.
- Condiciones ambientales: La iluminación baja, la luz solar intensa, la lluvia, la niebla o la mala calidad de la cámara pueden reducir la capacidad del modelo para ver la escena con claridad, afectando la precisión.
Link to this sectionConclusiones clave#
La predicción de colisiones reúne dos capacidades poderosas: la visión artificial, que permite a los sistemas entender qué está sucediendo en el entorno en este momento, y el pronóstico de trayectoria, que les ayuda a anticipar lo que es probable que suceda a continuación.
Al combinar estas fortalezas, las máquinas pueden detectar objetos en movimiento en tiempo real y predecir cómo pueden interactuar esos objetos en los segundos siguientes. A medida que las técnicas de visión artificial y pronóstico continúen evolucionando, la predicción de colisiones probablemente se convertirá en clave para construir sistemas autónomos más seguros, más fiables y escalables.
Echa un vistazo a nuestra comunidad y repositorio de GitHub para aprender más sobre IA. Explora aplicaciones como IA en el cuidado de la salud y visión artificial en la fabricación en nuestras páginas de soluciones. ¡Descubre nuestras opciones de licencia y empieza a construir hoy mismo!






