Pourquoi Ultralytics YOLO26 supprime NMS et comment cela change le déploiement
Découvre comment Ultralytics YOLO26 permet une inférence réelle de bout en bout, sans NMS, et pourquoi la suppression du post-traitement simplifie l'exportation et le déploiement en périphérie.

Le 14 janvier, nous avons lancé Ultralytics YOLO26, la dernière génération de nos modèles de vision par ordinateur. Avec YOLO26, notre objectif n'était pas seulement d'améliorer la précision ou la vitesse, mais de repenser la manière dont les modèles de détection d'objets sont conçus et déployés dans des systèmes réels.
À mesure que la vision par ordinateur passe de la recherche à la production, les modèles sont de plus en plus attendus sur des CPU, des appareils en périphérie (edge), des caméras, des robots et du matériel embarqué. Dans ces environnements, la fiabilité, la faible latence et la facilité de déploiement comptent tout autant que les performances.
YOLO26 a été conçu avec cette réalité à l'esprit, utilisant une architecture de bout en bout rationalisée qui élimine la complexité inutile du pipeline d'inférence. L'une des innovations les plus importantes apportées par YOLO26 est la suppression de la Non-Maximum Suppression, communément appelée NMS.
Pendant des années, le NMS a été une partie standard des systèmes de détection d'objets, utilisé comme étape de post-traitement pour nettoyer les détections en double. Bien qu'efficace, il introduisait également des calculs supplémentaires et des défis de déploiement, en particulier sur le matériel en périphérie.
Avec YOLO26, nous avons adopté une approche différente. En repensant la façon dont les prédictions sont générées et entraînées, nous permettons une véritable inférence de bout en bout, sans NMS. Le modèle produit directement les détections finales, sans dépendre d'étapes de nettoyage externes ou de règles conçues manuellement. Cela rend YOLO26 plus rapide, plus facile à exporter et plus fiable à déployer sur une large gamme de plateformes matérielles.

Fig 1. Détection d'objets dans une image à l'aide d'Ultralytics YOLO26.
Dans cet article, nous examinerons de plus près pourquoi la détection d'objets traditionnelle reposait sur le NMS, comment il est devenu un goulot d'étranglement pour le déploiement, et comment YOLO26 élimine le besoin de solutions de contournement. Commençons !
Link to this sectionLa détection d'objets traditionnelle produit des détections en double#
Avant de plonger dans ce qu'est le NMS et pourquoi nous l'avons supprimé dans YOLO26, prenons un peu de recul et examinons comment les modèles de détection d'objets traditionnels génèrent leurs prédictions.
Les modèles de détection d'objets traditionnels produisent souvent plusieurs boîtes englobantes qui se chevauchent pour le même objet. Chacune de ces boîtes est accompagnée de son propre score de confiance, bien qu'elles fassent toutes référence au même objet dans l'image.
Cela se produit pour quelques raisons. Premièrement, le modèle fait des prédictions à de nombreux emplacements spatiaux et à différentes échelles en même temps. Cela aide le modèle à détecter des objets de tailles différentes, mais cela signifie aussi que des emplacements voisins peuvent tous identifier le même objet indépendamment.
Deuxièmement, de nombreux systèmes de détection d'objets utilisent des approches basées sur des ancres, qui génèrent un grand nombre de boîtes candidates autour de chaque emplacement. Bien que cela améliore les chances de trouver des objets avec précision, cela augmente également le nombre de prédictions qui se chevauchent.
Enfin, la détection basée sur une grille conduit naturellement à la redondance. Lorsqu'un objet se trouve près de la limite de plusieurs cellules de la grille, plusieurs cellules peuvent prédire une boîte pour cet objet, entraînant de multiples détections qui se chevauchent.
Pour cette raison, la sortie brute du modèle contient souvent plusieurs boîtes pour un seul objet. Pour rendre les résultats utilisables, ces prédictions redondantes doivent être filtrées afin qu'il ne reste qu'une seule détection finale.
Link to this sectionComprendre la Non-Maximum Suppression#
Une fois qu'un modèle de détection d'objets produit plusieurs boîtes englobantes qui se chevauchent pour le même objet, ces résultats doivent être nettoyés avant de pouvoir être utilisés. C'est ici qu'intervient la Non-Maximum Suppression.
La Non-Maximum Suppression est une étape de post-traitement qui s'exécute après que le modèle a fini de faire ses prédictions. Son but est de réduire les détections en double afin que chaque objet soit représenté par une seule boîte englobante finale.

Fig 2. Un aperçu de la NMS. Image par l'auteur.
Le processus fonctionne en comparant les boîtes englobantes en fonction de leurs scores de confiance et de la mesure dans laquelle elles se chevauchent. Les prédictions avec une très faible confiance sont supprimées en premier.
Les boîtes restantes sont ensuite triées par confiance, et la boîte avec le score le plus élevé est sélectionnée comme la meilleure détection. Cette boîte sélectionnée est comparée aux autres boîtes.
Si une autre boîte chevauche trop la boîte sélectionnée, elle est supprimée. Le chevauchement est généralement mesuré à l'aide de l'Intersection over Union, une mesure qui calcule le rapport entre la zone partagée par deux boîtes et la zone totale couverte par les deux. Ce processus se répète jusqu'à ce qu'il ne reste que les détections les plus confiantes et sans chevauchement.
Link to this sectionPourquoi le NMS complique le déploiement#
Bien que la Non-Maximum Suppression aide à filtrer les détections en double, elle introduit également des défis qui deviennent plus visibles une fois que les modèles sortent de la recherche pour passer au déploiement réel.
L'un des plus gros problèmes est la performance. Le NMS s'exécute après l'inférence et nécessite de comparer les boîtes englobantes entre elles pour décider lesquelles conserver.
Ce processus est coûteux en termes de calcul et difficile à paralléliser efficacement. Sur les appareils en périphérie et les systèmes basés sur CPU, ce travail supplémentaire peut ajouter une latence notable, rendant plus difficile le respect des exigences en temps réel.
Le NMS augmente également la complexité du déploiement. Comme il ne fait pas partie du modèle lui-même, il doit être implémenté séparément en tant que code de post-traitement.
Différents runtimes et plateformes gèrent le NMS de différentes manières, ce qui signifie souvent maintenir des implémentations personnalisées pour chaque environnement cible. Ce qui fonctionne dans une configuration peut se comporter légèrement différemment dans une autre, rendant le déploiement plus fragile et plus difficile à mettre à l'échelle.
L'optimisation matérielle est un autre défi. Le NMS ne s'adapte pas proprement aux accélérateurs d'IA spécialisés, qui sont conçus pour exécuter efficacement les opérations de réseau neuronal. En conséquence, même lorsque le modèle s'exécute rapidement sur du matériel optimisé, le NMS peut devenir un goulot d'étranglement qui limite les performances globales.
En plus de ces facteurs, le NMS repose sur des paramètres choisis manuellement tels que les seuils de confiance et les seuils de chevauchement. Ces paramètres peuvent affecter considérablement les résultats et doivent souvent être ajustés pour différents jeux de données, applications ou matériels. Cela rend le comportement moins prévisible dans les systèmes de production et ajoute une surcharge de configuration supplémentaire.
Link to this sectionExplication de l'inférence de détection d'objets de bout en bout#
Les limites de la Non-Maximum Suppression nous ont amenés à repenser la manière dont les modèles de détection d'objets devraient se comporter lors de l'inférence. Au lieu de générer de nombreuses prédictions qui se chevauchent et de les nettoyer ensuite, nous avons posé une question plus fondamentale.
Et si le modèle pouvait produire directement les détections finales ? Cette question est au cœur de l'inférence de détection d'objets de bout en bout. Dans un système de bout en bout, le modèle est entraîné à gérer l'ensemble du processus de détection du début à la fin, sans dépendre d'étapes de nettoyage externes.
Plutôt que de produire de nombreuses boîtes candidates et de les filtrer après l'inférence, le modèle apprend à générer par lui-même un petit ensemble de prédictions confiantes et sans chevauchement. Les détections en double sont résolues à l'intérieur du réseau au lieu d'être supprimées par un post-traitement.
Des architectures de modèles plus récentes ont montré que cette approche était à la fois possible et pratique. Avec la bonne stratégie d'entraînement, les modèles pouvaient apprendre à associer chaque objet à une seule prédiction au lieu de nombreuses prédictions concurrentes, réduisant ainsi la redondance à sa source.

Fig 3. Un exemple de détection d'objets à l'aide d'Ultralytics YOLO26.
Pour que cela fonctionne, l'entraînement doit également changer. Au lieu de laisser de nombreuses prédictions concourir pour le même objet, le modèle apprend à prendre une décision claire, produisant moins de détections et plus confiantes.
Le résultat global est un pipeline d'inférence plus simple. Comme les doublons sont déjà résolus en interne, il n'y a pas besoin de Non-Maximum Suppression au moment de l'inférence. La sortie du modèle est déjà l'ensemble final de détections.
Cette conception de bout en bout facilite également le déploiement. Sans étapes de post-traitement ou implémentations de NMS spécifiques à la plateforme, le modèle exporté est entièrement autonome et se comporte de manière cohérente sur différents frameworks d'inférence et cibles matérielles.
Comme l'explique notre ingénieur principal en partenariat, Francesco Mattioli, « Un véritable apprentissage de bout en bout signifie que le modèle doit tout gérer, des pixels aux prédictions, sans étapes de post-traitement artisanales qui brisent la différenciabilité et compliquent le déploiement. »
Link to this sectionComment Ultralytics YOLO26 supprime le NMS#
YOLO26 supprime la Non-Maximum Suppression en changeant la façon dont les détections sont apprises et produites, plutôt que de s'appuyer sur un post-traitement pour les nettoyer. Au lieu de permettre à de nombreuses prédictions de concourir pour le même objet, YOLO26 est entraîné à apprendre une relation claire un-à-un entre les objets et les sorties.
Ceci est rendu possible en partie par une détection basée sur des requêtes apprenables, qui aide le modèle à se concentrer sur la production d'une seule prédiction confiante pour chaque objet plutôt que sur de nombreux candidats qui se chevauchent. Chaque objet est associé à une prédiction, ce qui réduit naturellement les détections en double.
Ce comportement est renforcé par des stratégies de correspondance cohérentes pendant l'entraînement, encourageant le modèle à prendre une décision confiante par objet plutôt que de générer des prédictions qui se chevauchent. En fin de compte, le modèle produit moins de prédictions, mais chacune représente une détection finale.
Link to this sectionPourquoi la suppression du DFL a rendu possible la détection sans NMS#
Une autre innovation importante qui permet l'inférence sans NMS dans YOLO26 est la suppression du Distribution Focal Loss, ou DFL. Dans les modèles YOLO précédents, le DFL était utilisé pour améliorer la régression des boîtes englobantes en prédisant une distribution des emplacements de boîtes possibles plutôt qu'une valeur unique.
Bien que cette approche ait amélioré la précision de la localisation, elle a également ajouté de la complexité au pipeline de détection. Cette complexité est devenue une limitation lors du passage à une véritable inférence de bout en bout.
Le DFL a introduit des calculs supplémentaires et des plages de régression fixes, ce qui a rendu plus difficile pour le modèle d'apprendre des affectations d'objets un-à-un propres et a accru la dépendance à des étapes de post-traitement comme la Non-Maximum Suppression. Avec YOLO26, nous avons supprimé le DFL et redessiné la régression des boîtes englobantes pour qu'elle soit plus simple et plus directe.
Au lieu de s'appuyer sur des sorties basées sur la distribution, le modèle apprend à prédire des coordonnées de boîtes précises d'une manière qui prend en charge moins de détections, mais plus confiantes. Ce changement aide à réduire les prédictions qui se chevauchent à leur source et aligne la régression des boîtes englobantes avec la conception de bout en bout sans NMS de YOLO26.
Link to this sectionUltralytics YOLO26 est sans NMS et facile à déployer#
Une conception sans NMS fait de YOLO26 un modèle véritablement de bout en bout. Cela a un impact important sur l'exportation des modèles.
L'exportation signifie convertir un modèle entraîné dans un format pouvant s'exécuter en dehors de l'environnement d'entraînement, tel que ONNX, TensorRT, CoreML ou OpenVINO. Dans les pipelines traditionnels, ce processus échoue souvent parce que la Non-Maximum Suppression ne fait pas partie du modèle lui-même.
En supprimant le NMS, YOLO26 évite entièrement ce problème. Le modèle exporté inclut déjà tout ce qui est nécessaire pour produire des détections finales.
Cela rend le modèle exporté entièrement autonome et plus portable sur les frameworks d'inférence et les cibles matérielles. Le même modèle se comporte de manière cohérente, qu'il soit déployé sur des serveurs, des systèmes basés uniquement sur CPU, des appareils embarqués ou des accélérateurs en périphérie. Le déploiement devient plus simple car ce que tu exportes est exactement ce que tu exécutes.
Cette simplicité est particulièrement importante pour les applications en périphérie. Par exemple, YOLO26 peut être facilement déployé sur des appareils comme des drones pour des cas d'utilisation tels que la surveillance des cultures, l'inspection des champs et l'analyse de la santé des plantes, où des budgets de calcul et d'énergie limités rendent les pipelines de post-traitement complexes peu pratiques. Parce que le modèle produit directement les détections finales, il fonctionne de manière fiable sur du matériel léger sans étapes de traitement supplémentaires.

Fig 4. Ultralytics YOLO26 est facile à déployer sur des appareils en périphérie comme des drones.
En bref, l'inférence sans NMS supprime les frictions liées à l'exportation et au déploiement et permet des systèmes de vision plus propres et plus fiables. Le NMS était une solution de contournement. YOLO26 n'a plus besoin de solutions de contournement.
Link to this sectionPoints clés#
YOLO26 supprime la Non-Maximum Suppression en résolvant le problème sous-jacent des détections en double, plutôt qu'en les nettoyant après coup. Sa conception de bout en bout permet au modèle de produire directement les détections finales, rendant l'exportation et le déploiement plus simples et plus cohérents sur différents matériels. Le NMS était une solution de contournement utile pour les systèmes précédents, mais YOLO26 n'en a plus besoin.
Rejoins notre communauté et consulte notre référentiel GitHub pour en savoir plus sur l'IA. Explore nos pages de solutions sur l'IA dans l'agriculture et la vision par ordinateur dans le commerce de détail. Découvre nos options de licence et commence avec l'IA de vision dès aujourd'hui !






