Améliorer la prédiction de collision avec les modèles Ultralytics YOLO
Découvre comment les insights des modèles Ultralytics YOLO aident les systèmes de prédiction de collision à prendre des décisions plus sûres et plus rapides dans des environnements dynamiques.

Même en étant prudent sur la route, les accidents peuvent arriver. Une voiture qui change de voie, un piéton qui traverse hors des clous ou un cycliste qui accélère sans prévenir. Ces moments du quotidien sont des exemples où les systèmes de prédiction de collision peuvent faire une réelle différence et contribuer à la sécurité de tous.
Nous avons précédemment examiné la prédiction de trajectoire de balle et vu comment la prévision du chemin d'une balle en mouvement rapide aide l'analyse sportive à comprendre les déplacements et à anticiper la suite. La prédiction de collision fonctionne de manière similaire.
Ces systèmes de prédiction regardent essentiellement vers le futur. En observant le mouvement des véhicules et des piétons, ils peuvent détecter les risques tôt et ajuster leur trajectoire ou leur comportement avant (ce qu'on appelle la planification de mouvement ou de chemin) que la situation ne devienne dangereuse.
Les technologies informatiques clés derrière les systèmes de prédiction de collision sont l'intelligence artificielle et ses sous-domaines, comme la vision par ordinateur et les méthodes de prévision qui aident à prédire comment les choses vont bouger. Par exemple, des modèles de vision par ordinateur comme Ultralytics YOLO11 et le futur Ultralytics YOLO26 peuvent être utilisés pour détecter et suivre des objets tels que des véhicules et des piétons en temps réel, tandis que les modèles de prévision utilisent ces informations pour estimer leurs prochains déplacements.

Fig 1. Un exemple de YOLO11 utilisé pour détecter des objets sur la route (Source).
Le résultat est un système IA qui comprend ce qui se passe autour de lui et favorise une prise de décision plus intelligente dans des environnements dynamiques. Dans cet article, nous explorerons le fonctionnement de la prédiction de collision, les méthodes associées, ainsi que le rôle que la vision par ordinateur et les modèles Ultralytics YOLO peuvent jouer dans ce processus. Commençons !
Link to this sectionQu'est-ce que la prédiction de collision ?#
La prédiction de collision est la capacité d'un système IA à comprendre comment les objets se déplacent et à anticiper le moment où ils pourraient se rapprocher dangereusement ou entrer en contact. Différents systèmes peuvent utiliser ces informations de nombreuses manières, notamment pour renforcer les dispositifs de sécurité, optimiser les déplacements ou coordonner des actions dans des espaces partagés.
Partout où des objets évoluent dans un espace partagé, qu'il s'agisse de voitures sur une autoroute, de chariots élévateurs dans les allées d'un entrepôt ou de piétons traversant une rue, la prédiction de collision aide les systèmes à comprendre comment ces interactions peuvent se dérouler. Dans les applications axées sur la sécurité, cette anticipation peut servir à réduire les risques, tandis que dans d'autres contextes, elle peut appuyer des tâches comme la planification d'itinéraires, le timing ou le mouvement coordonné.
Par exemple, dans de nombreux véhicules récents équipés de systèmes avancés d'aide à la conduite (ADAS), des caméras et des capteurs surveillent la route et estiment la vitesse à laquelle la voiture se rapproche des objets à proximité. Si le système détecte une situation potentiellement dangereuse, il avertit le conducteur et, dans certains cas, un freinage automatique peut contribuer à réduire l'impact.
Link to this sectionExplorer les quatre étapes de la prédiction de collision#
La prédiction de collision implique un processus coordonné dans lequel différents composants IA travaillent ensemble pour identifier les objets, suivre leurs mouvements et estimer ce qui pourrait se produire ensuite. Ces systèmes fonctionnent généralement à travers quatre étapes connectées : la détection d'objets, le suivi d'objets, la prévision de trajectoire et enfin la prédiction de collision, chaque étape s'appuyant sur la précision de la précédente.
Voyons maintenant plus en détail comment fonctionne chaque étape.
Link to this sectionUn regard sur la détection d'objets#
La détection d'objets est une tâche fondamentale en vision par ordinateur où des modèles IA identifient et localisent des objets dans une image ou une séquence vidéo. En analysant les données de pixels, un modèle de détection peut produire trois sorties principales : des boîtes englobantes (bboxes), des classes d'objets et des scores de confiance. Les boîtes englobantes indiquent l'emplacement, les classes précisent la nature de l'objet (voiture, piéton, cycliste, etc.), et les scores de confiance reflètent le degré de certitude du modèle.
Des modèles de vision IA comme YOLO11 et YOLO26 s'appuient sur cette base et prennent en charge plusieurs tâches connexes, notamment la détection d'objets, le suivi d'objets et la détection de boîtes englobantes orientées (OBB). La détection d'objets indique à un système de prédiction ce qui se trouve dans chaque image, le suivi suit ces objets au fil de leur mouvement, et les boîtes englobantes orientées offrent des formes plus précises pour les objets apparaissant sous différents angles.
À ce stade, un système de prédiction de collision se concentre purement sur la compréhension de ce qui est présent dans les données visuelles. Cela forme la couche d'information de base dont dépendent toutes les étapes suivantes, mais ne prend pas encore en compte la façon dont les objets bougeront ou interagiront.
Link to this sectionUn aperçu du suivi d'objets#
Une fois les objets détectés, l'étape suivante consiste à les suivre à travers les images pour que le système comprenne comment ils se déplacent dans le temps. Alors que la détection fournit de nouvelles boîtes englobantes à chaque image, le suivi d'objets ajoute une continuité en liant ces détections au fil du temps.
Les algorithmes de suivi pris en charge par le paquet Python Ultralytics, tels que ByteTrack ou BoT-SORT, fonctionnent avec des modèles comme YOLO11 en utilisant les données de détection de chaque image pour suivre les objets lors de leurs déplacements. Ces algorithmes attribuent un identifiant unique à chaque objet, ce qui permet de maintenir cette identité même lorsque l'objet se déplace rapidement ou devient partiellement masqué. Cela crée un historique de suivi fluide qui capture le mouvement de l'objet.

Fig 2. Un aperçu de l'attribution d'identifiants uniques pour différentes détections via YOLO (Source)
Voici un rapide aperçu du fonctionnement de ces deux méthodes de suivi :
- ByteTrack : Il utilise à la fois des détections à haute et faible confiance pour maintenir des identifiants d'objets cohérents, avec des prédictions de mouvement issues d'un filtre de Kalman aidant le tracker à rester stable lorsque les objets se déplacent rapidement ou sont brièvement difficiles à détecter.
- BoT-SORT : Cet algorithme étend SORT en combinant les prédictions de mouvement du filtre de Kalman avec des indices d'apparence, permettant au tracker de suivre les objets de manière plus fiable dans des scènes encombrées ou lors d'occlusions partielles.
Pour mesurer la performance de ces méthodes de suivi, les chercheurs les évaluent sur des jeux de données et benchmarks de suivi multi-objets (MOT) établis. De plus, les métriques couramment utilisées incluent la précision de suivi multi-objets (MOTA), qui reflète la qualité globale du suivi ; le score F1 d'identification (IDF1), qui mesure la cohérence du maintien des identités d'objets ; et la précision de suivi d'ordre supérieur (HOTA), qui offre une vue équilibrée de la performance de détection et de la précision d'association.
Link to this sectionComprendre la prévision de trajectoire#
Après avoir suivi un objet sur plusieurs images, l'étape suivante consiste à prédire où il ira ensuite. C'est ce qu'on appelle la prévision de trajectoire. Alors que la détection trouve les objets et que le suivi suit leurs mouvements, la prévision regarde vers l'avant et estime leurs positions futures.
Les informations issues de la détection et du suivi, comme la boîte englobante d'un objet, sa position sur les images et son identifiant, peuvent être utilisées pour calculer des caractéristiques de mouvement telles que la vitesse, la direction et les schémas de déplacement. Ces insights dérivés fournissent au modèle de prévision les données nécessaires pour estimer où l'objet se trouvera probablement dans les prochaines secondes.
Dans les cas où les données de suivi contiennent des lacunes ou des sauts brusques, des techniques d'interpolation aident à reconstruire des trajectoires plus fluides et cohérentes. Cela garantit que le modèle de prévision reçoit des données de mouvement de haute qualité plutôt que des informations de position bruitées ou incomplètes.

Fig 3. Une visualisation de la prédiction de trajectoire d'une voiture. (Source)
Pour effectuer ces prédictions, de nombreux systèmes s'appuient sur des modèles de deep learning conçus pour comprendre comment le mouvement d'un objet évolue dans le temps. En analysant des séquences de positions passées et les caractéristiques de mouvement dérivées, ces modèles apprennent les schémas de déplacement courants et utilisent ces connaissances pour prévoir les chemins futurs.
Voici quelques approches de deep learning et de machine learning couramment utilisées pour la prévision de trajectoire :
-
Réseaux de neurones récurrents (RNN) : Les RNN sont des modèles de deep learning conçus pour traiter des séquences, comme une série d'images vidéo. Ils peuvent conserver une mémoire des positions précédentes et utiliser cette information pour comprendre comment un objet s'est déplacé. Cela aide le système à reconnaître des schémas de mouvement simples comme accélérer, ralentir ou se déplacer en ligne droite.
-
Réseaux à mémoire longue et courte terme (LSTM) : Les LSTM sont un type plus avancé de RNN capable de mémoriser des informations sur de plus longues périodes. Cela leur permet de capturer des mouvements complexes, comme un véhicule se préparant à tourner ou un piéton changeant de direction. Comme ils peuvent suivre des tendances plus longues, ils produisent souvent des prédictions plus fiables dans des environnements animés.
-
Transformers : Les Transformers traitent des séquences de mouvement complètes et utilisent l'attention pour se concentrer sur les détails les plus importants. Cela les rend particulièrement efficaces dans des scènes où plusieurs objets interagissent, comme des voitures qui fusionnent ou des piétons traversant une voie.
Ces modèles peuvent prédire des chemins à court et à plus long terme. Les prévisions à court terme, généralement inférieures à deux secondes, ont tendance à être les plus précises, tandis que les prédictions sur des fenêtres plus larges, comme deux à six secondes, offrent plus d'anticipation mais avec une plus grande incertitude.
Link to this sectionRassembler le tout : Algorithmes de détection de collision#
À la dernière étape, la prédiction de collision, le système utilise tout ce qu'il a appris jusqu'ici : ce qu'est chaque objet (détection), comment il s'est déplacé (suivi) et où il est susceptible d'aller ensuite (prévision). Cette étape vérifie si l'une des trajectoires prédites pourrait se croiser d'une manière qui pourrait mener à une collision.

Fig 4. Fonctionnement d'un système de prédiction de collision (Source)
Dans le cas des véhicules autonomes, un système de vérification de collision compare les futures trajectoires d'objets à proximité tels que des voitures, des piétons et des cyclistes. Si deux chemins prédits se chevauchent ou se rapprochent dangereusement, il marque la situation comme une collision potentielle. Pour comprendre l'urgence du risque de collision, le système calcule également une valeur appelée temps avant collision (Time-to-collision).
Le temps avant collision (TTC) est une mesure clé dans les environnements à mouvement rapide. Il estime combien de temps reste avant que deux objets n'entrent en collision s'ils continuent à leurs vitesses et directions actuelles. Lorsque le TTC passe en dessous d'un certain seuil, le système peut réagir en émettant des avertissements, en appliquant les freins ou en ajustant sa trajectoire prévue.
Link to this sectionApplications réelles de la prédiction de collision#
La prédiction de collision devient cruciale dans de nombreuses industries, incluant la gestion du trafic, les infrastructures de ville intelligente, l'automatisation industrielle et la robotique mobile. Alors que les modèles de pointe en vision par ordinateur et en prévision continuent de progresser, ces systèmes deviennent plus capables d'anticiper les déplacements.
Maintenant que nous comprenons mieux le fonctionnement de la prédiction de collision et de la prévision de trajectoire, examinons quelques études de recherche intéressantes qui montrent comment ces méthodes peuvent être utilisées dans divers environnements réels.
Link to this sectionPrédiction de collision propulsée par YOLO pour véhicules autonomes d'urgence#
Naviguer dans des environnements bondés et imprévisibles est l'un des défis les plus ardus pour les systèmes autonomes, surtout lorsque les piétons bougent de manières ne suivant aucun schéma clair. Les véhicules d'urgence font face à ce problème encore plus souvent, car ils doivent se déplacer rapidement et à haute vitesse à travers des espaces publics denses sans compter sur des routes structurées, des marquages au sol ou un comportement prévisible des piétons.
Dans ce type de scénario, comprendre où se trouvent les gens et comment ils pourraient se déplacer dans les prochaines secondes devient essentiel pour éviter les accidents. Par exemple, une étude de recherche récente a exploré ce défi en construisant un pipeline de prédiction de collision complet pour un Véhicule Autonome d'Urgence (EAV) opérant dans des environnements fréquentés par les piétons.
Link to this sectionComment fonctionne le pipeline de prédiction de collision propulsé par YOLO#
Voici un aperçu du fonctionnement de cette méthodologie :
- Détection de piétons via YOLO : Un détecteur basé sur YOLO identifie les piétons dans chaque image de caméra et génère des boîtes englobantes pour chaque personne visible.
- Suivi de mouvement avec ByteTrack : L'algorithme ByteTrack lie ces détections entre les images, donnant à chaque piéton un identifiant cohérent et créant un historique de mouvement montrant comment ils se déplacent au fil du temps.
- Estimation de position dans le monde réel : La cartographie par perspective inverse (IPM) convertit les coordonnées de pixels 2D en positions approximatives sur le plan au sol, aidant le système à comprendre où se trouvent les piétons dans l'espace réel par rapport au véhicule.
- Génération de vue à vol d'oiseau via un cGAN : Un GAN conditionnel, un modèle IA qui traduit un format d'image en un autre, crée une représentation en vue aérienne de la scène. Cette disposition vue d'en haut facilite l'interprétation des positions des piétons et de leur environnement.
- Prédiction de trajectoire avec un modèle LSTM : En utilisant les positions passées et les schémas de mouvement de chaque piéton, un modèle LSTM prédit où ils sont susceptibles de se déplacer dans les prochaines secondes.
- Détection efficace des collisions via des cônes de collision : Les trajectoires prédites sont comparées en utilisant la méthode des cônes de collision, qui détermine si les chemins du véhicule et de tout piéton sont sur le point de se croiser.
- Évitement de collision par signalisation : Si le système prédit une collision, il active un signal auditif (comme un klaxon ou une sonnerie) au moment optimal. Le timing est choisi pour influencer le comportement du piéton et lui donner une chance d'accélérer ou de ralentir pour se mettre en sécurité.
Link to this sectionAssurer la sécurité des piétons en ville via la vision en périphérie et YOLO#
De même, une autre approche de la prévention des collisions regarde au-delà des véhicules et se concentre sur l'infrastructure elle-même. Au lieu de s'appuyer sur des capteurs à l'intérieur d'une voiture, cette méthode utilise des caméras intelligentes installées aux passages piétons et aux intersections pour surveiller les mouvements des piétons et des véhicules en temps réel. Ces emplacements sont souvent imprévisibles ; les gens peuvent soudainement entrer sur la chaussée, les cyclistes peuvent se faufiler dans la circulation et les conducteurs ne ralentissent pas toujours, il est donc vital de détecter les risques tôt.
Une étude intéressante a exploré cette idée via un système appelé NAVIBox, un dispositif de vision en périphérie conçu pour prédire les risques véhicule-piéton directement à l'intersection. Le système utilise le modèle Ultralytics YOLOv8 pour détecter les piétons et les véhicules, et un tracker de centroïde léger pour les suivre à travers les images. Cela crée des historiques de mouvement courts et fiables, qui sont ensuite affinés en utilisant une transformation de perspective qui convertit la vue angulaire de vidéosurveillance en une disposition en vue aérienne plus claire de la route.
Avec ces trajectoires affinées, NAVIBox peut estimer comment les usagers de la route sont susceptibles de se déplacer dans les prochaines secondes et vérifier si leurs chemins peuvent se croiser (ce qu'on appelle un test d'intersection). Lorsque le système détecte une interaction risquée, il envoie immédiatement des avertissements via des affichages pour les conducteurs et des haut-parleurs pour les piétons, sans s'appuyer sur un serveur distant ou une connexion réseau. Les tests dans des lieux urbains réels ont montré que NAVIBox fonctionne assez rapidement pour une réponse en temps réel et peut identifier avec précision des scénarios de collision potentiels, en faisant un outil de sécurité pratique pour les intersections urbaines fréquentées.

Fig 5. Prédiction du risque de collision entre véhicules et piétons. (Source)
Link to this sectionAvantages et inconvénients de la détection et de la prédiction de collision#
Voici quelques avantages de l'utilisation de systèmes de prédiction de collision basés sur l'IA :
-
Améliore la conscience situationnelle : Les systèmes IA cartographient en continu la façon dont les objets se déplacent dans un environnement, fournissant une compréhension plus riche des flux de foule à grande échelle, du comportement du trafic ou des trajectoires des machines.
-
Insights basés sur les données pour la planification à long terme : En enregistrant les détections, les quasi-accidents et les schémas de mouvement, les systèmes IA fournissent des analyses que les urbanistes, les équipes de sécurité et les gestionnaires de flotte peuvent utiliser pour repenser les intersections, améliorer la signalisation ou affiner les politiques opérationnelles.
-
Prévention des risques rentable : En détectant les risques avant qu'ils ne s'aggravent, ces systèmes permettent d'éviter des accidents coûteux, des réclamations d'assurance ou des réparations d'équipement.
Malgré ses avantages, les systèmes sans collision font face à certaines limites. Voici quelques défis à considérer :
- Contraintes de placement des capteurs et caméras : Des caméras mal positionnées ou mal orientées peuvent fausser la taille ou la distance des objets, rendant l'estimation de la profondeur et la prédiction de trajectoire moins fiables.
- Occlusion : Les objets peuvent être partiellement ou totalement cachés derrière d'autres. Cela rend le suivi d'objets difficile puisque le modèle perd la continuité visuelle.
- Conditions environnementales : Un faible éclairage, un soleil éblouissant, la pluie, le brouillard ou une mauvaise qualité de caméra peuvent réduire la capacité du modèle à voir la scène clairement, affectant la précision.
Link to this sectionPoints clés#
La prédiction de collision rassemble deux capacités puissantes : la vision par ordinateur, qui permet aux systèmes de comprendre ce qui se passe dans l'environnement à l'instant présent, et la prévision de trajectoire, qui les aide à anticiper ce qui est susceptible d'arriver ensuite.
En combinant ces forces, les machines peuvent détecter des objets en mouvement en temps réel et prédire comment ces objets pourraient interagir dans les secondes à venir. À mesure que les techniques de vision par ordinateur et de prévision continueront d'évoluer, la prédiction de collision deviendra probablement clé pour construire des systèmes autonomes plus sûrs, plus fiables et évolutifs.
Consulte notre communauté et notre répertoire GitHub pour en savoir plus sur l'IA. Explore des applications comme l'IA dans la santé et la vision par ordinateur dans la fabrication sur nos pages de solutions. Découvre nos options de licence et commence à construire dès aujourd'hui !






