Amélioration de la prévision des collisions grâce aux modèlesYOLO d'Ultralytics

Même si l'on est prudent sur la route, un accident peut toujours se produire. Une voiture change de voie, un piéton fait du sur-place ou un cycliste accélère sans prévenir. Ces moments de la vie quotidienne sont des exemples où les systèmes de prévision des collisions peuvent faire une réelle différence et contribuer à la sécurité de tous.

Précédemment, nous avons examiné la prédiction de la traject oire d'un ballon et vu comment la prévision de la trajectoire d'un ballon en mouvement rapide aide les analystes sportifs à comprendre les mouvements et à anticiper ce qui se passera ensuite. La prédiction des collisions fonctionne de la même manière.

Ces systèmes de prédiction sont essentiellement tournés vers l'avenir. En observant la façon dont les véhicules et les piétons se déplacent, ils peuvent détecter les risques à temps et ajuster leur trajectoire ou leur comportement avant que les choses ne prennent une tournure dangereuse (ce que l'on appelle la planification des mouvements ou la planification de la trajectoire).

Les principales technologies informatiques sur lesquelles reposent les systèmes de prévision des collisions sont l'intelligence artificielle et ses sous-domaines, tels que la vision par ordinateur et les méthodes de prévision qui aident à prédire les mouvements des objets. Par exemple, des modèles de vision artificielle comme Ultralytics YOLO11 et le futur Ultralytics YOLO26 peuvent être utilisés pour detect et track objets tels que des véhicules et des piétons en temps réel, et les modèles de prévision utilisent ces informations pour estimer leurs prochains mouvements.

Fig. 1. Exemple d'utilisation de YOLO11 pour detect objets sur la route(Source).

‍

Le résultat est un système d'IA qui comprend ce qui se passe autour de lui et permet de prendre des décisions plus intelligentes dans des environnements dynamiques. Dans cet article, nous allons explorer le fonctionnement de la prédiction des collisions, les méthodes qui la sous-tendent et le rôle que la vision par ordinateur et les modèlesYOLO d'Ultralytics peuvent jouer dans le processus. Commençons par le commencement !

Qu'est-ce que la prédiction des collisions ?

La prédiction des collisions est la capacité d'un système d'intelligence artificielle à comprendre comment les objets se déplacent et à anticiper le moment où ils risquent de s'approcher ou d'entrer en contact. Différents systèmes peuvent utiliser ces informations de différentes manières, notamment en prenant en charge les dispositifs de sécurité, en optimisant les mouvements ou en coordonnant les actions dans les espaces partagés.

Chaque fois que des objets se déplacent dans un espace partagé, qu'il s'agisse de voitures sur une autoroute, de chariots élévateurs dans un entrepôt ou de piétons traversant une rue, la prévision des collisions aide les systèmes à comprendre comment ces interactions peuvent se dérouler. Dans les applications axées sur la sécurité, cette prévision peut être utilisée pour réduire les risques, tandis que dans d'autres contextes, elle peut soutenir des tâches telles que la planification d'itinéraires, la synchronisation ou la coordination des mouvements.

Par exemple, dans de nombreux véhicules récents équipés de systèmes avancés d'aide à la conduite (ADAS), des caméras et des capteurs surveillent la route et évaluent la vitesse à laquelle le véhicule s'approche d'objets proches. Si le système détecte qu'une situation risque de devenir dangereuse, il alerte le conducteur et, dans certains cas, le freinage automatique peut contribuer à réduire l'impact.

Explorer les quatre étapes de la prédiction des collisions

La prédiction des collisions implique un processus coordonné dans lequel différents composants d'intelligence artificielle travaillent ensemble pour identifier les objets, suivre leur mouvement et estimer ce qui pourrait se produire ensuite. Ces systèmes fonctionnent généralement en quatre étapes interdépendantes : détection des objets, suivi des objets, prévision de la trajectoire et enfin prédiction des collisions, chaque étape s'appuyant sur la précision de l'étape précédente.

Examinons maintenant de plus près le fonctionnement de chaque étape.

Un regard sur la détection d'objets

La détection d'objets est une tâche essentielle de la vision par ordinateur dans laquelle les modèles d'intelligence artificielle identifient et localisent des objets dans une image ou une séquence vidéo. En analysant les données des pixels, un modèle de détection d'objets peut produire trois résultats principaux : les boîtes de délimitation, les classes d'objets et les scores de confiance. Les boîtes de délimitation indiquent où se trouve un objet, les classes d'objets indiquent de quoi il s'agit, par exemple une voiture, un piéton ou un cycliste, et les scores de confiance reflètent le degré de certitude du modèle quant à la prédiction.

Les modèles d'IA visuelle tels que YOLO11 et YOLO26 s'appuient sur cette base et prennent en charge plusieurs tâches connexes, notamment la détection d'objets, le suivi d'objets et la détection de boîtes de délimitation orientées (OBB). La détection d'objets peut indiquer à un système de prédiction ce qui se trouve dans chaque image, le suivi suit ces objets lorsqu'ils se déplacent, et les boîtes de délimitation orientées fournissent des formes plus précises pour les objets qui apparaissent sous des angles différents.

À ce stade, un système de prédiction des collisions se concentre uniquement sur la compréhension de ce qui est présent dans les données visuelles. Il constitue la couche d'informations de base dont dépendent toutes les étapes ultérieures, mais il ne tient pas encore compte de la manière dont les objets se déplaceront ou interagiront.

Vue d'ensemble du suivi d'objets

Une fois les objets détectés, l'étape suivante consiste à les track d'une image à l'autre afin que le système puisse comprendre comment ils se déplacent dans le temps. Alors que la détection fournit de nouvelles boîtes de délimitation à chaque image, le suivi des objets ajoute une continuité en reliant ces détections au fil du temps.

Les algorithmes de suivi pris en charge par le paquetagePython Ultralytics , tels que ByteTrack ou BoT-SORT, fonctionnent avec des modèles tels que YOLO11 en utilisant les données de détection de chaque image pour suivre les objets pendant leur déplacement. Ces algorithmes attribuent un identifiant unique à chaque objet et l'utilisent pour maintenir cette identité même lorsque l'objet se déplace rapidement ou devient partiellement caché. Cela permet de créer un historique de suivi fluide qui rend compte de la façon dont l'objet se déplace.

Fig. 2. Exemple d'attribution d'identifiants uniques pour différentes détections à l'aide de YOLO (Source)

‍

Voici un bref aperçu du fonctionnement de ces deux méthodes de suivi :

ByteTrack : Il utilise à la fois les détections de haute et de basse confiance pour maintenir des identifications d'objets cohérentes, avec des prédictions de mouvement provenant d'un filtre de Kalman aidant le tracker à rester stable lorsque les objets se déplacent rapidement ou qu'ils sont brièvement difficiles à detect.
BoT-SORT : Cet algorithme étend SORT en combinant les prédictions de mouvement du filtre de Kalman avec des indices d'apparence, ce qui permet au suiveur de suivre les objets de manière plus fiable dans les scènes encombrées ou en cas d'occlusion partielle.

Pour mesurer les performances de ces méthodes de suivi, les chercheurs les évaluent sur des ensembles de données de suivi d'objets multiples (MOT) et des points de référence. Les mesures couramment utilisées sont la précision du suivi d'objets multiples (MOTA), qui reflète la qualité globale du suivi, le score d'identification F1 (IDF1), qui mesure la cohérence du maintien de l'identité des objets, et la précision du suivi d'ordre supérieur (HOTA), qui offre une vue équilibrée des performances de détection et de la précision de l'association.

Comprendre la prévision des trajectoires

Après avoir suivi un objet sur plusieurs images, l'étape suivante consiste à prédire sa prochaine destination. C'est ce qu'on appelle la prévision de trajectoire. Alors que la détection permet de trouver les objets et que le suivi permet de voir comment ils se déplacent, la prévision permet d'anticiper et d'estimer leurs positions futures.

Les informations issues de la détection et du suivi, telles que la boîte englobante d'un objet, sa position sur l'ensemble des images et l'identifiant qui lui a été attribué, peuvent être utilisées pour calculer les caractéristiques de mouvement telles que la vitesse, la direction et les schémas de mouvement. Ces informations dérivées fournissent au modèle de prévision les données dont il a besoin pour estimer où l'objet est susceptible de se trouver dans les prochaines secondes.

Dans les cas où les données de suivi contiennent des lacunes ou des sauts brusques, les techniques d'interpolation permettent de reconstruire des trajectoires plus lisses et plus cohérentes. Le modèle de prévision reçoit ainsi des données de mouvement de haute qualité plutôt que des données de position bruyantes ou incomplètes.

Fig. 3. Visualisation de la prédiction de la trajectoire d'une voiture(Source)

‍

Pour faire ces prédictions, de nombreux systèmes s'appuient sur des modèles d'apprentissage profond conçus pour comprendre comment le mouvement d'un objet évolue au fil du temps. En analysant des séquences de positions antérieures et les caractéristiques de mouvement qui en découlent, ces modèles apprennent des schémas de mouvement courants et utilisent ces connaissances pour prévoir les trajectoires futures.

Voici quelques approches d'apprentissage profond et d'apprentissage automatique couramment utilisées pour la prévision des trajectoires :

Réseaux neuronaux récurrents (RNN) : Les RNN sont des modèles d'apprentissage profond conçus pour travailler avec des séquences, telles qu'une série d'images vidéo. Ils peuvent garder en mémoire les positions précédentes et utiliser ces informations pour comprendre comment un objet s'est déplacé. Cela permet au système de reconnaître des modèles de mouvement simples, comme l'accélération, le ralentissement ou le déplacement en ligne droite.

Réseaux de mémoire à long terme (LSTM) : Les LSTM sont un type de RNN plus avancé, capable de mémoriser des informations sur de plus longues périodes. Cela leur permet de saisir des mouvements plus complexes, tels qu'un véhicule se préparant à tourner ou un piéton changeant de direction. Comme ils peuvent track tendances plus longues, ils produisent souvent des prédictions plus fiables dans des environnements très fréquentés.

Transformateurs: Transformers traitent des séquences de mouvements complets et utilisent l'attention pour se concentrer sur les détails les plus importants de ces séquences. Cela les rend particulièrement efficaces dans les scènes où plusieurs objets interagissent, comme les voitures qui se rejoignent ou les piétons qui traversent.

Ces modèles peuvent prédire les trajectoires à court et à long terme. Les prévisions à court terme, généralement inférieures à deux secondes, tendent à être les plus précises, tandis que les prévisions à plus long terme, de deux à six secondes par exemple, sont plus prévisibles mais plus incertaines.

Réunir tous les éléments : Algorithmes de détection des collisions

Lors de la dernière étape, la prédiction des collisions, le système utilise tout ce qu'il a appris jusqu'à présent : ce qu'est chaque objet (détection), comment il s'est déplacé (suivi) et où il est susceptible d'aller ensuite (prévision). Cette étape permet de vérifier si l'une des trajectoires prédites peut se croiser d'une manière susceptible d'entraîner une collision.

Fig. 4. Fonctionnement d'un système de prévision des collisions(Source)

‍

Dans le cas des véhicules autonomes, un système de contrôle des collisions compare les trajectoires futures d'objets proches tels que les voitures, les piétons et les cyclistes. Si deux trajectoires prédites se chevauchent ou se rapprochent dangereusement, il marque la situation comme une collision potentielle entre véhicules. Pour déterminer l'urgence du risque de collision, le système calcule également une valeur appelée "délai avant collision".

Le temps de collision (TTC) est une mesure clé dans les environnements en mouvement rapide. Il estime le temps qu'il reste avant que deux objets n'entrent en collision s'ils continuent à leur vitesse et dans leur direction actuelles. Lorsque le temps de collision tombe en dessous d'un certain seuil, le système peut réagir en émettant des avertissements, en appliquant les freins ou en ajustant la trajectoire prévue.

Applications réelles de la prédiction des collisions

La prévision des collisions devient cruciale dans de nombreux secteurs, notamment la gestion du trafic, l'infrastructure des villes intelligentes, l'automatisation industrielle et la robotique mobile. À mesure que la vision par ordinateur et les modèles de prévision continuent de progresser, ces systèmes sont de plus en plus capables d'anticiper les mouvements.

Maintenant que nous comprenons mieux comment fonctionnent la prévision des collisions et la prévision des trajectoires, examinons quelques études intéressantes qui montrent comment ces méthodes peuvent être utilisées dans divers environnements réels.

Prévision des collisions YOLO pour les véhicules autonomes d'urgence

La navigation dans des environnements encombrés et imprévisibles est l'un des défis les plus difficiles à relever pour les systèmes autonomes, en particulier lorsque les piétons se déplacent selon des schémas peu clairs. Les véhicules d'urgence sont encore plus souvent confrontés à ce problème, car ils doivent se déplacer rapidement à grande vitesse dans des espaces publics denses sans s'appuyer sur des routes structurées, des marquages de voies ou un comportement prévisible des piétons.

Dans ce type de scénarios, il est essentiel de comprendre où se trouvent les gens et comment ils pourraient se déplacer dans les prochaines secondes pour éviter les accidents. Par exemple, une étude récente a exploré ce défi en construisant un pipeline complet de prédiction des collisions pour un véhicule autonome d'urgence (EAV) opérant dans des environnements riches en piétons.

Comment fonctionne le pipeline de prédiction des collisions YOLO?

Voici un aperçu du fonctionnement de cette méthodologie :

Détection de piétons à l'aide de YOLO: un détecteur YOLO identifie les piétons dans chaque image de la caméra et produit des boîtes de délimitation pour chaque personne visible.
‍
Suivi des mouvements avec ByteTrack : L'algorithme ByteTrack relie ces détections d'une image à l'autre, donnant à chaque piéton un identifiant cohérent et créant un historique des mouvements qui montre comment ils se déplacent au fil du temps.
‍
Estimation de la position dans le monde réel : La cartographie inversée de la perspective (IPM) convertit les coordonnées des pixels en 2D en positions approximatives dans le plan du sol, ce qui aide le système à comprendre où se trouvent les piétons dans l'espace réel par rapport au véhicule.
‍
Génération d'une vue en plongée à l'aide d'un cGAN : un GAN conditionnel, un modèle d'IA qui traduit un format d'image en un autre, crée une représentation de la scène en vue en plongée. Cette représentation descendante facilite l'interprétation des positions des piétons et de leur environnement.
‍
Prédiction de trajectoire avec un modèle LSTM : En utilisant les positions et les mouvements antérieurs de chaque piéton, un modèle LSTM prédit où ils sont susceptibles de se déplacer dans les prochaines secondes.
‍
Détection efficace des collisions à l'aide de cônes de collision : Les trajectoires prédites sont comparées à l'aide de la méthode des cônes de collision, qui détermine si les trajectoires du véhicule et d'un piéton sont sur le point de se croiser.
‍
Éviter les collisions grâce à la signalisation : Si le système prévoit une collision, il active un signal auditif (tel qu'un klaxon ou une cloche) au moment optimal. Le moment est choisi pour influencer le comportement des piétons et leur donner la possibilité d'accélérer ou de ralentir pour se mettre en sécurité.

Assurer la sécurité des piétons dans les villes grâce à la vision périphérique et à YOLO

De même, une autre approche de la prévention des collisions va au-delà des véhicules et se concentre sur l'infrastructure elle-même. Au lieu de s'appuyer sur des capteurs à l'intérieur d'une voiture, cette méthode utilise des caméras intelligentes installées aux passages piétons et aux intersections pour surveiller la façon dont les piétons et les véhicules se déplacent en temps réel. Ces endroits sont souvent imprévisibles : les gens peuvent s'engager brusquement sur la route, les cyclistes peuvent se faufiler dans le trafic et les conducteurs ne ralentissent pas toujours, de sorte qu'il est vital de détecter les risques à un stade précoce.

Une étude intéressante a exploré cette idée au moyen d'un système appelé NAVIBox, un dispositif de vision périphérique conçu pour prédire les risques entre véhicules et piétons directement à l'intersection. Le système utilise la technologie Ultralytics YOLOv8 pour detect piétons et les véhicules, et un tracker Centroid léger pour les suivre à travers les images. Cela permet de créer des historiques de mouvements courts et fiables, qui sont ensuite affinés à l'aide d'une transformation de perspective qui convertit la vue CCTV inclinée en une disposition plus claire de la route à vol d'oiseau.

Grâce à ces trajectoires affinées, NAVIBox peut estimer comment les usagers de la route sont susceptibles de se déplacer dans les prochaines secondes et vérifier si leurs trajectoires peuvent se croiser (ce que l'on appelle également un test d'intersection). Lorsque le système détecte une interaction risquée, il envoie immédiatement des avertissements par le biais d'écrans pour les conducteurs et de haut-parleurs pour les piétons, sans dépendre d'un serveur ou d'une connexion réseau à distance. Les tests effectués dans des zones urbaines réelles ont montré que NAVIBox est suffisamment rapide pour réagir en temps réel et qu'il peut identifier avec précision les scénarios de collision potentiels, ce qui en fait un outil de sécurité pratique pour les intersections urbaines très fréquentées.

Fig. 5. Prévision du risque de collision entre véhicules et piétons.(Source)

‍

Avantages et inconvénients de la détection et de la prévision des collisions

Voici quelques avantages de l'utilisation de systèmes de collision prédictifs basés sur l'IA :

Amélioration de la connaissance de la situation : Les systèmes d'IA cartographient en permanence la façon dont les objets se déplacent dans un environnement, ce qui permet de mieux comprendre les flux de foule à grande échelle, le comportement du trafic ou les trajectoires des machines.
‍
Des informations fondées sur des données pour une planification à long terme : En enregistrant les détections, les accidents évités de justesse et les schémas de déplacement, les systèmes d'IA fournissent des analyses que les urbanistes, les équipes de sécurité et les opérateurs de flotte peuvent utiliser pour redessiner les intersections, améliorer la signalisation ou affiner les politiques opérationnelles.

Prévention rentable des risques : En détectant les risques avant qu'ils ne s'aggravent, ces systèmes peuvent permettre d'éviter des accidents coûteux, des demandes d'indemnisation ou des réparations d'équipement.

Malgré leurs avantages, les systèmes anticollision présentent également certaines limites. Voici quelques défis à relever :

Contraintes liées à l'emplacement des capteurs et des caméras : Des caméras mal positionnées ou inclinées peuvent fausser la taille ou la distance de l'objet, ce qui rend l'estimation de la profondeur et la prédiction de la trajectoire moins fiables.
‍
Occlusion: Les objets peuvent être partiellement ou totalement cachés par d'autres. Cela rend le suivi des objets difficile car le modèle perd sa continuité visuelle.
‍
Conditions environnementales: Un faible éclairage, une lumière solaire intense, la pluie, le brouillard ou une mauvaise qualité de la caméra peuvent réduire la capacité du modèle à voir clairement la scène, ce qui affecte la précision.

Principaux points à retenir

La prévision des collisions fait appel à deux capacités puissantes : la vision par ordinateur, qui permet aux systèmes de comprendre ce qui se passe actuellement dans l'environnement, et la prévision des trajectoires, qui les aide à anticiper ce qui risque de se produire ensuite.

En combinant ces forces, les machines peuvent detect objets en mouvement en temps réel et prédire comment ces objets peuvent interagir dans les secondes à venir. Au fur et à mesure que les techniques de vision artificielle et de prévision continuent d'évoluer, la prévision des collisions deviendra probablement un élément clé de la construction de systèmes autonomes plus sûrs, plus fiables et plus évolutifs.

Consultez notre communauté et notre dépôt GitHub pour en savoir plus sur l'IA. Explorez des applications telles que l 'IA dans les soins de santé et la vision par ordinateur dans l'industrie manufacturière sur nos pages de solutions. Découvrez nos options de licence et commencez à construire dès aujourd'hui !

Améliorer la prédiction des collisions avec les modèles Ultralytics YOLO

Qu'est-ce que la prédiction des collisions ?