En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment Ultralytics permet une véritable inférence de bout en bout, NMS, et pourquoi la suppression du post-traitement simplifie l'exportation et le déploiement en périphérie.
Le 14 janvier, nous avons lancé Ultralytics , la dernière génération de nos modèles de vision par ordinateur. Avec YOLO26, notre objectif n'était pas seulement d'améliorer la précision ou la vitesse, mais aussi de repenser la manière dont les modèles de détection d'objets sont conçus et déployés dans les systèmes réels.
À mesure que la vision par ordinateur passe de la recherche à la production, on s'attend de plus en plus à ce que les modèles fonctionnent sur des processeurs, des appareils périphériques, des caméras, des robots et du matériel intégré. Dans ces environnements, la fiabilité, la faible latence et la facilité de déploiement sont tout aussi importantes que les performances.
YOLO26 a été conçu en tenant compte de cette réalité, à l'aide d'une architecture simplifiée de bout en bout qui élimine toute complexité inutile du pipeline d'inférence. L'une des innovations les plus importantes apportées à YOLO26 est la suppression de la suppression non maximale, communément appelée NMS.
Pendant des années, NMS été un élément standard des systèmes de détection d'objets, utilisé comme étape de post-traitement pour nettoyer les détections en double. Bien qu'efficace, il a également introduit des défis supplémentaires en matière de calcul et de déploiement, en particulier sur le matériel périphérique.
Avec YOLO26, nous avons adopté une approche différente. En repensant la manière dont les prédictions sont générées et entraînées, nous permettons une véritable inférence de bout en bout, NMS. Le modèle produit directement des détections finales, sans recourir à des étapes de nettoyage externes ou à des règles artisanales. Cela rend YOLO26 plus rapide, plus facile à exporter et plus fiable à déployer sur une large gamme de plateformes matérielles.
Fig. 1. Détection d'objets dans une image à l'aide d'Ultralytics .
Dans cet article, nous allons examiner de plus près pourquoi la détection d'objets traditionnelle reposait sur NMS, comment cela est devenu un goulot d'étranglement pour le déploiement et comment YOLO26 élimine le besoin de solutions de contournement. C'est parti !
La détection traditionnelle d'objets produit des détections en double.
Avant d'aborder ce NMS et pourquoi nous l'avons supprimé dans YOLO26, prenons un peu de recul et examinons comment les modèles traditionnels de détection d'objets génèrent leurs prédictions.
Les modèles traditionnels de détection d'objets produisent souvent plusieurs cadres de sélection qui se chevauchent pour un même objet. Chacun de ces cadres est associé à son propre score de confiance, même s'ils se réfèrent tous au même objet dans l'image.
Cela s'explique par plusieurs raisons. Tout d'abord, le modèle effectue des prédictions à plusieurs emplacements spatiaux et à différentes échelles simultanément. Cela lui permet de detect de différentes tailles, mais cela signifie également que des emplacements proches peuvent tous identifier le même objet indépendamment les uns des autres.
Deuxièmement, de nombreux systèmes de détection d'objets utilisent des approches basées sur des ancrages, qui génèrent un grand nombre de boîtes candidates autour de chaque emplacement. Si cela améliore les chances de trouver des objets avec précision, cela augmente également le nombre de prédictions qui se chevauchent.
Enfin, la détection basée sur une grille entraîne naturellement une redondance. Lorsqu'un objet se trouve à proximité de la limite de plusieurs cellules de la grille, plusieurs cellules peuvent prédire une boîte pour cet objet, ce qui entraîne plusieurs détections qui se chevauchent.
Pour cette raison, la sortie brute du modèle contient souvent plusieurs boîtes pour un seul objet. Afin de rendre les résultats exploitables, ces prédictions redondantes doivent être filtrées afin qu'il ne reste qu'une seule détection finale.
Comprendre la suppression non maximale
Lorsqu'un modèle de détection d'objets génère plusieurs cadres de sélection qui se chevauchent pour un même objet, ces résultats doivent être nettoyés avant de pouvoir être utilisés. C'est là qu'intervient la suppression non maximale.
La suppression non maximale est une étape de post-traitement qui s'exécute une fois que le modèle a terminé ses prédictions. Son objectif est de réduire les détections en double afin que chaque objet soit représenté par un seul cadre de sélection final.
Fig. 2. Aperçu général du NMS. Image réalisée par l'auteur.
Le processus consiste à comparer les cadres de sélection en fonction de leurs scores de confiance et de leur degré de chevauchement. Les prédictions dont le score de confiance est très faible sont supprimées en premier.
Les boîtes restantes sont ensuite triées par niveau de confiance, et la boîte ayant obtenu le score le plus élevé est sélectionnée comme la meilleure détection. Cette boîte sélectionnée est comparée aux autres boîtes.
Si une autre boîte la recouvre trop, celle-ci est supprimée. Le chevauchement est généralement mesuré à l'aide de l'intersection sur l'union, une métrique qui calcule le rapport entre la zone partagée par deux boîtes et la zone totale couverte par les deux. Ce processus se répète jusqu'à ce qu'il ne reste que les détections les plus fiables et sans chevauchement.
Pourquoi NMS le déploiement
Si la suppression non maximale aide à filtrer les détections en double, elle pose également des défis qui deviennent plus visibles lorsque les modèles passent de la recherche à la mise en œuvre dans le monde réel.
L'un des principaux problèmes concerne les performances. NMS après l'inférence et nécessite de comparer les boîtes englobantes entre elles afin de déterminer celles qui doivent être conservées.
Ce processus est coûteux en termes de calcul et difficile à paralléliser efficacement. Sur les appareils périphériques et les systèmes CPU, ce travail supplémentaire peut ajouter une latence notable, rendant plus difficile le respect des exigences en temps réel.
NMS augmente NMS la complexité du déploiement. Comme il ne fait pas partie du modèle lui-même, il doit être implémenté séparément sous forme de code de post-traitement.
Les différents environnements d'exécution et plateformes gèrent NMS différentes manières, ce qui implique souvent de maintenir des implémentations personnalisées pour chaque environnement cible. Ce qui fonctionne dans une configuration peut se comporter légèrement différemment dans une autre, rendant le déploiement plus fragile et plus difficile à mettre à l'échelle.
L'optimisation matérielle est un autre défi. NMS s'adapte NMS parfaitement aux accélérateurs IA spécialisés, qui sont conçus pour exécuter efficacement les opérations des réseaux neuronaux. Par conséquent, même lorsque le modèle fonctionne rapidement sur du matériel optimisé, NMS devenir un goulot d'étranglement qui limite les performances globales.
En plus de ces facteurs, NMS sur des paramètres choisis manuellement, tels que les seuils de confiance et les seuils de chevauchement. Ces paramètres peuvent avoir une incidence significative sur les résultats et doivent souvent être ajustés en fonction des différents ensembles de données, applications ou matériels. Cela rend le comportement moins prévisible dans les systèmes de production et ajoute une charge supplémentaire en termes de configuration.
Explication de l'inférence de détection d'objets de bout en bout
Les limites de la suppression non maximale nous ont amenés à repenser le comportement des modèles de détection d'objets au moment de l'inférence. Au lieu de générer de nombreuses prédictions qui se chevauchent et de les nettoyer par la suite, nous avons posé une question plus fondamentale.
Et si le modèle pouvait produire directement des détections finales ? Cette question est au cœur de l'inférence de détection d'objets de bout en bout. Dans un système de bout en bout, le modèle est entraîné à gérer l'ensemble du processus de détection du début à la fin, sans recourir à des étapes de nettoyage externes.
Plutôt que de produire de nombreuses boîtes candidates et de les filtrer après inférence, le modèle apprend à générer lui-même un petit ensemble de prédictions fiables et non superposées. Les détections en double sont résolues à l'intérieur du réseau au lieu d'être supprimées par post-traitement.
Les architectures de modèles plus récentes ont montré que cette approche était à la fois possible et pratique. Avec une stratégie d'apprentissage adaptée, les modèles pouvaient apprendre à associer chaque objet à une seule prédiction plutôt qu'à plusieurs prédictions concurrentes, réduisant ainsi la redondance à sa source.
Fig. 3. Exemple de détection d'objets à l'aide d'Ultralytics .
Pour que cela fonctionne, la formation doit également changer. Au lieu de laisser de nombreuses prédictions se disputer le même objet, le modèle apprend à prendre une décision claire, produisant ainsi moins de détections, mais plus fiables.
Le résultat global est un pipeline d'inférence plus simple. Les doublons étant déjà résolus en interne, il n'est pas nécessaire de procéder à une suppression non maximale au moment de l'inférence. Le résultat du modèle correspond déjà à l'ensemble final des détections.
Cette conception de bout en bout facilite également le déploiement. Sans étapes de post-traitement ni NMS spécifiques à la plateforme, le modèle exporté est entièrement autonome et se comporte de manière cohérente sur différents frameworks d'inférence et cibles matérielles.
Comme l'explique Francesco Mattioli, notre ingénieur principal en partenariats, « un véritable apprentissage de bout en bout signifie que le modèle doit tout gérer, des pixels aux prédictions, sans étapes de post-traitement manuelles qui nuisent à la différenciabilité et compliquent le déploiement ».
Comment Ultralytics supprime NMS
YOLO26 supprime la suppression non maximale en modifiant la manière dont les détections sont apprises et produites, plutôt que de s'appuyer sur un post-traitement pour les nettoyer. Au lieu de permettre à de nombreuses prédictions de se disputer le même objet, YOLO26 est entraîné à apprendre une relation claire et univoque entre les objets et les résultats.
Cela est rendu possible en partie grâce à la détection basée sur des requêtes apprenables, qui aide le modèle à se concentrer sur la production d'une seule prédiction fiable pour chaque objet plutôt que sur de nombreux candidats qui se chevauchent. Chaque objet est associé à une seule prédiction, ce qui réduit naturellement les détections en double.
Ce comportement est renforcé par des stratégies de correspondance cohérentes pendant l'entraînement, qui encouragent le modèle à prendre une décision sûre par objet plutôt que de générer des prédictions qui se chevauchent. Au final, le modèle produit moins de prédictions, mais chacune d'entre elles représente une détection finale.
Pourquoi la suppression du DFL a rendu possible la détection NMS
Une autre innovation importante qui permet une inférence NMS dans YOLO26 est la suppression de la perte focale de distribution, ou DFL. Dans YOLO précédents, la DFL était utilisée pour améliorer la régression des boîtes englobantes en prédisant une distribution des emplacements possibles des boîtes plutôt qu'une valeur unique.
Si cette approche a amélioré la précision de la localisation, elle a également ajouté de la complexité au processus de détection. Cette complexité est devenue une limitation lors du passage à une véritable inférence de bout en bout.
DFL a introduit des calculs supplémentaires et des plages de régression fixes, ce qui a rendu plus difficile pour le modèle d'apprendre des attributions d'objets propres et uniques, et a accru la dépendance à l'égard d'étapes de post-traitement telles que la suppression non maximale. Avec YOLO26, nous avons supprimé DFL et repensé la régression des cadres de sélection afin de la rendre plus simple et plus directe.
Au lieu de s'appuyer sur des résultats basés sur la distribution, le modèle apprend à prédire les coordonnées précises des boîtes de manière à obtenir moins de détections, mais plus fiables. Ce changement permet de réduire les prédictions qui se chevauchent à la source et d'aligner la régression des boîtes englobantes avec la conception de bout en bout et NMS de YOLO26.
Ultralytics NMS nécessite NMS et est facile à déployer.
Une conception NMS fait de YOLO26 un modèle véritablement de bout en bout. Cela a un impact important sur l'exportation des modèles.
L'exportation consiste à convertir un modèle entraîné dans un format pouvant être exécuté en dehors de l'environnement d'entraînement, tel que ONNX, TensorRT, CoreML ou OpenVINO. Dans les pipelines traditionnels, ce processus échoue souvent car la suppression non maximale ne fait pas partie du modèle lui-même.
En supprimant NMS, YOLO26 évite complètement ce problème. Le modèle exporté comprend déjà tout ce qui est nécessaire pour produire les détections finales.
Cela rend le modèle exporté entièrement autonome et plus portable entre les frameworks d'inférence et les cibles matérielles. Le même modèle se comporte de manière cohérente, qu'il soit déployé sur des serveurs, des systèmes CPU, des appareils embarqués ou des accélérateurs périphériques. Le déploiement devient plus simple, car ce que vous exportez correspond exactement à ce que vous exécutez.
Cette simplicité est particulièrement importante pour les applications de pointe. Par exemple, YOLO26 peut être facilement déployé sur des appareils tels que des drones pour des cas d'utilisation tels que la surveillance des cultures, l'inspection des champs et l'analyse de la santé des plantes, où les budgets informatiques et énergétiques limités rendent les pipelines de post-traitement complexes peu pratiques. Comme le modèle produit directement les détections finales, il fonctionne de manière fiable sur du matériel léger sans étapes de traitement supplémentaires.
Fig. 4. Ultralytics est facile à déployer sur des appareils périphériques tels que les drones.
En bref, l'inférence NMS élimine les frictions liées à l'exportation et au déploiement et permet de disposer de systèmes de vision plus propres et plus fiables. NMS une solution de contournement. YOLO26 n'a plus besoin de solutions de contournement.
Principaux points à retenir
YOLO26 supprime la suppression non maximale (NMS) en résolvant le problème sous-jacent des détections en double, plutôt qu'en les nettoyant après coup. Sa conception de bout en bout permet au modèle de produire directement des détections finales, ce qui rend l'exportation et le déploiement plus simples et plus cohérents sur différents matériels. NMS une solution de contournement utile pour les systèmes antérieurs, mais YOLO26 n'en a plus besoin.