Ultralytics : une conception plus rapide, axée sur la périphérie !

En début de semaine, Ultralytics a Ultralytics lancé Ultralytics , un YOLO plus rapide, plus léger et plus petit qui vise à redéfinir les performances des systèmes de vision par ordinateur à la périphérie. YOLO26 prend en charge les mêmes tâches de vision de base que YOLO précédents, notamment la détection d'objets et la segmentation d'instances.

Fig. 1. Exemple d'utilisation de YOLO26 pour segment objet.

‍

La différence fondamentale entre YOLO26 et les modèles précédents réside dans l'environnement dans lequel il a été conçu pour fonctionner. Plutôt que d'être optimisé principalement pour les processeurs graphiques (GPU) dans le cloud ou pour des performances basées sur des benchmarks, YOLO26 a été conçu dès le départ pour être déployé dans le monde réel sur des appareils périphériques et du matériel embarqué.

À mesure que la vision par ordinateur passe de la recherche à la production, les contraintes de performance deviennent plus évidentes. Les environnements périphériques sont caractérisés par des latences limitées, une mémoire restreinte, des contraintes énergétiques et thermiques, ainsi que la nécessité d'un comportement prévisible sur diverses plateformes.

Dans ces configurations, les performances globales du système dépendent non seulement de la vitesse brute d'inférence, mais aussi de l'efficacité avec laquelle l'ensemble du pipeline fonctionne. La surcharge liée au post-traitement, la pression sur la mémoire et les chemins d'exécution spécifiques à la plate-forme constituent souvent des goulots d'étranglement.

YOLO26 relève ces défis en adoptant une approche plus rapide, axée sur la périphérie, qui examine l'ensemble du pipeline d'inférence plutôt que les métriques individuelles du modèle. En se concentrant sur l'optimisation de la périphérie, en simplifiant le pipeline d'inférence et en supprimant les étapes de post-traitement inutiles, YOLO26 offre des améliorations en termes de vitesse qui se traduisent par une latence réduite et un comportement plus fiable en production.

Dans cet article, nous allons voir comment les choix architecturaux de YOLO26 se traduisent par des améliorations concrètes en termes de performances, et pourquoi une plus grande rapidité en périphérie change fondamentalement ce qui est possible pour les applications de vision par ordinateur de nouvelle génération.

La réalité du déploiement en périphérie

L'exécution de modèles de vision par ordinateur à la périphérie est très différente de leur exécution dans le cloud. Dans les environnements cloud, les systèmes ont généralement accès à des GPU puissants, à de grandes quantités de mémoire et à du matériel stable. À la périphérie, ces conditions ne s'appliquent pas.

La plupart des déploiements périphériques fonctionnent sur diverses architectures matérielles, et non sur des GPU. Les appareils utilisent généralement plusieurs processeurs spécialisés pour différentes tâches, qui sont optimisés pour l'efficacité et la faible consommation d'énergie plutôt que pour la capacité de calcul brute des GPU cloud.

La latence est une autre contrainte majeure. Les systèmes périphériques fonctionnent souvent dans des délais très courts, où même les plus petits retards peuvent affecter la réactivité ou la sécurité. Dans ces cas, la latence de bout en bout est plus importante que la vitesse d'inférence brute. Un modèle peut être rapide sur le papier, mais s'avérer insuffisant une fois que le post-traitement et le transfert de données sont ajoutés.

La mémoire joue également un rôle important. De nombreux appareils périphériques ont une mémoire limitée et des caches partagés. Des tenseurs intermédiaires volumineux et une utilisation inefficace de la mémoire peuvent ralentir les systèmes, même lorsque le modèle lui-même est efficace.

Les limites thermiques et énergétiques ajoutent des contraintes supplémentaires. Les appareils périphériques fonctionnent souvent sans refroidissement actif et avec une consommation énergétique limitée. Les performances doivent être efficaces et durables, et pas seulement rapides sur de courtes périodes.

En plus de tout cela, les déploiements en périphérie exigent une certaine cohérence. Les modèles doivent se comporter de la même manière sur tous les appareils et tous les environnements d'exécution. Le code spécifique à une plateforme ou les étapes de post-traitement complexes peuvent introduire des différences subtiles qui rendent les systèmes plus difficiles à déployer et à maintenir.

Fig. 2. Aperçu des contraintes liées au déploiement en périphérie. Image réalisée par l'auteur.

‍

Ces contraintes définissent ce que signifie réellement la performance à la périphérie. En d'autres termes, la performance est définie par l'ensemble du pipeline, et non par un seul indicateur.

Pourquoi la vision périphérique exige un modèle de performance différent

Alors, quel est le lien entre les contraintes liées au déploiement en périphérie et les exigences d'un modèle de vision par ordinateur conçu pour la périphérie ? Ce lien devient évident lorsque les modèles passent du stade de la recherche à celui des systèmes réels.

Dans les environnements cloud, les performances sont souvent mesurées à l'aide de critères tels que la vitesse et la précision de l'inférence. À la périphérie, ces indicateurs ne reflètent qu'une partie de la réalité. Les systèmes de vision fonctionnent généralement sur du matériel hétérogène, où l'inférence du réseau neuronal est déchargée vers des accélérateurs spécialisés tandis que d'autres parties du pipeline fonctionnent sur des processeurs à usage général.

Dans ce contexte, la vitesse du modèle ne suffit pas. Le fonctionnement de l'ensemble du système une fois le modèle déployé est essentiel. Un modèle peut sembler rapide en soi, mais rester insuffisant si le post-traitement, le transfert de données ou les étapes spécifiques à la plateforme ajoutent une surcharge.

C'est pourquoi la vision périphérique nécessite un modèle de performance qui se concentre sur l'efficacité au niveau du système plutôt que sur des benchmarks isolés. YOLO26 reflète cette évolution en mettant l'accent sur l'optimisation périphérique, l'inférence rationalisée et l'exécution de bout en bout conçues pour un déploiement dans le monde réel.

La base de la vitesse : une conception axée sur les bords

À la périphérie, les performances sont définies par la qualité de l'adéquation entre le modèle et l'architecture matérielle réelle de l'appareil. Concevoir d'abord pour la périphérie garantit que les systèmes de vision fonctionnent de manière fiable sur toutes les plateformes réelles, quelle que soit la combinaison spécifique d'unités de traitement disponibles.

Une approche axée sur les périphériques privilégie une exécution prévisible et efficace sur du matériel hétérogène, plutôt que d'adapter a posteriori des modèles optimisés pour les GPU cloud. En termes simples, cela signifie privilégier les opérations qui se traduisent bien sur les accélérateurs de réseaux neuronaux, minimiser les tâches non neuronales en dehors du modèle et réduire la complexité inutile qui peut ralentir l'exécution de bout en bout.

YOLO26 a été conçu en tenant compte de ces contraintes. Son architecture privilégie la cohérence des performances plutôt que le débit maximal dans des conditions idéales. En simplifiant les chemins d'exécution et en éliminant les calculs inutiles, YOLO26 réduit la charge globale du pipeline d'inférence et exploite mieux l'accélération et la hiérarchie mémoire disponibles de l'appareil.

Cette approche améliore également la fiabilité. L'optimisation « edge-first » permet d'obtenir un timing plus prévisible et moins de pics de performance, ce qui est essentiel pour les systèmes en temps réel. Au lieu de s'appuyer sur du matériel spécialisé ou un post-traitement lourd pour atteindre la vitesse, YOLO26 met l'accent sur l'efficacité tout au long du pipeline d'inférence.

Inférence de bout en bout et coût du post-traitement

Vous vous demandez peut-être ce que signifie « éliminer les étapes de post-traitement inutiles ». Pour comprendre cela, prenons un peu de recul et examinons le fonctionnement des systèmes traditionnels de détection d'objets.

Dans de nombreux pipelines de détection d'objets, l'inférence ne s'arrête pas lorsque le modèle produit ses prédictions. Au contraire, le modèle génère un grand nombre de cadres de sélection qui se chevauchent, lesquels doivent ensuite être filtrés et affinés avant de pouvoir être utilisés. Ce nettoyage s'effectue à travers des étapes de post-traitement qui s'exécutent en dehors du modèle lui-même.

L'une des étapes de post-traitement les plus courantes est la suppression non maximale, ou NMS. NMS les cadres de sélection qui se chevauchent et ne conserve que les détections les plus fiables, en supprimant les doublons qui font référence au même objet. Bien que cette approche soit efficace, elle nécessite un calcul supplémentaire une fois l'inférence terminée.

Fig. 3. Comprendre NMS. Image réalisée par l'auteur.

‍

Au final, ce travail supplémentaire a un coût. Les étapes de post-traitement telles que NMS ne NMS pas bien adaptées aux accélérateurs spécialisés utilisés pour l'inférence des réseaux neuronaux, qui sont optimisés pour les calculs neuronaux denses plutôt que pour les opérations nécessitant beaucoup de contrôle ou de mémoire.

Par conséquent, NMS une latence et une surcharge mémoire supplémentaires, et son coût augmente à mesure que le nombre de détections augmente. Même lorsque le modèle lui-même est rapide, NMS encore consommer une partie importante du temps d'exécution total.

Le post-traitement augmente également la complexité du système. Comme il se trouve en dehors du modèle, il doit être implémenté séparément pour différents environnements d'exécution et cibles matérielles. Cela conduit souvent à des chemins de code spécifiques à la plate-forme, à un comportement incohérent entre les appareils et à des pipelines de déploiement plus fragiles.

Plus important encore, le post-traitement rompt avec l'idée d'une véritable performance de bout en bout. La mesure de la vitesse d'inférence du modèle ne reflète pas le comportement du système en production. Ce qui importe en fin de compte, c'est le temps total entre l'entrée et la sortie finale, y compris chaque étape du pipeline.

Dans ces situations, le post-traitement devient un goulot d'étranglement caché à la périphérie. Il ajoute de la latence, consomme CPU et complique le déploiement, tout en restant en dehors du modèle lui-même.

Comment YOLO26 supprime NMS pourquoi cela le rend plus rapide

YOLO26 élimine NMS en s'attaquant à la cause profonde des détections en double plutôt qu'en les nettoyant après l'inférence. Au lieu de produire de nombreuses prédictions qui se chevauchent et qui doivent être filtrées, le modèle est entraîné à générer directement un ensemble plus restreint de détections finales fiables.

Cela est rendu possible grâce à une modification de la manière dont les détections sont apprises pendant l'entraînement. YOLO26 favorise une relation plus claire entre les objets et les prédictions, réduisant ainsi la redondance à la source. Par conséquent, les détections en double sont résolues au sein même du réseau plutôt que par un post-traitement externe.

La suppression NMS un impact immédiat sur les performances en périphérie. Étant donné que NMS s'adapte NMS bien aux accélérateurs de réseaux neuronaux, sa suppression réduit les mouvements de mémoire et évite les étapes de traitement non neuronales coûteuses. Cela réduit la latence de bout en bout et rend les performances plus prévisibles, en particulier sur les appareils en périphérie où le post-traitement peut autrement consommer une partie notable du temps d'exécution total.

Cela simplifie également le pipeline d'inférence. Avec moins d'étapes en dehors du modèle, il y a moins de mouvements de données et moins de transferts entre les composants. La sortie du modèle est déjà le résultat final, ce qui rend l'exécution plus prévisible.

Suppression du DFL pour permettre de véritables performances de bout en bout

Une autre innovation dans YOLO26 est la suppression de la perte focale de distribution, ou DFL, qui était utilisée dans YOLO précédents pour la régression des cadres de sélection. Au lieu de prédire directement une seule coordonnée, les modèles utilisant la DFL apprenaient une distribution de valeurs possibles, puis dérivaient un cadre de sélection final à partir de cette distribution. Cette approche a contribué à améliorer la précision de la localisation et a constitué une avancée importante par rapport aux générations précédentes.

Au fil du temps, cependant, le DFL a également introduit des compromis. La prédiction des distributions augmente la charge de calcul et ajoute de la complexité à l'architecture du modèle, ce qui peut ralentir l'inférence sur les processeurs et rendre les modèles plus difficiles à exporter entre les différents formats de déploiement. Le DFL imposait également des plages de régression fixes, ce qui pouvait limiter la flexibilité lors de la détection d'objets très volumineux.

YOLO26 supprime le DFL dans le cadre de son évolution vers une conception plus simple et de bout en bout. La régression des cadres de sélection a été repensée pour être plus directe, réduisant ainsi les calculs inutiles tout en conservant la précision. Ce changement s'aligne sur l'approche NMS de YOLO26.

D'où vient cette augmentation de 43 % de la vitesse CPU ?

Dans les benchmarks CPU, YOLO26 affiche une nette amélioration des performances par rapport YOLO précédents. Par rapport à Ultralytics YOLO11, le modèle nano YOLO26 offre CPU jusqu'à 43 % plus rapide, une différence qui a un impact significatif dans les déploiements en périphérie dans le monde réel.

‍

Ce gain provient de la simplification de l'ensemble du pipeline d'inférence plutôt que de l'optimisation d'un seul composant. L'exécution de bout en bout supprime la surcharge liée au post-traitement, une méthode de régression par boîte englobante plus directe réduit les calculs, et les choix de conception CPU améliorent l'efficacité d'exécution sur les processeurs à usage général.

Ensemble, ces changements réduisent la latence, diminuent CPU et permettent d'obtenir des performances plus rapides et plus régulières sur le matériel périphérique réel.

L'impact de YOLO26 sur le déploiement en périphérie et les exportations

Les gains de performance de YOLO26 vont au-delà d'une inférence plus rapide. En simplifiant le modèle et en réduisant la surcharge mémoire, il devient plus facile à déployer et plus fiable à exécuter dans les environnements périphériques.

La conception de bout en bout de YOLO26 simplifie également l'exportation. Avec moins de composants auxiliaires et aucune étape de post-traitement externe, les modèles exportés sont entièrement autonomes. Cela réduit les dépendances spécifiques à la plate-forme et contribue à garantir un comportement cohérent entre les environnements d'exécution et les cibles matérielles.

Concrètement, cela signifie que YOLO26 peut être déployé plus facilement sur des appareils périphériques tels que des caméras, des robots et des systèmes embarqués, à l'aide de divers formats d'exportation. Ce que vous exportez est ce que vous exécutez, avec moins d'étapes d'intégration et moins de risques de dérive de déploiement.

Une inférence plus rapide en périphérie permet le développement de la robotique et de l'IA appliquée à la vision industrielle.

Jusqu'à présent, nous avons examiné comment la conception « edge-first » (priorité aux périphériques) de YOLO26 améliore les performances au niveau du système. Cependant, son véritable impact réside dans la facilité avec laquelle elle permet d'intégrer l'IA visuelle dans des applications concrètes.

Par exemple, dans les domaines de la robotique et de l'industrie, les systèmes de vision fonctionnent souvent dans des conditions strictes en temps réel. Les décisions doivent être prises rapidement et de manière cohérente, en utilisant des ressources informatiques limitées et sans dépendre de la connectivité au cloud. Avec Ultralytics , il devient possible de répondre à ces exigences.

Les applications telles que la navigation robotique et la manipulation d'objets bénéficient d'une latence réduite et d'une inférence plus prévisible, ce qui permet aux robots de réagir en douceur aux changements de leur environnement. De même, dans les environnements industriels, les modèles de vision peuvent fonctionner directement sur les chaînes de production pour detect , track et surveiller les processus sans introduire de retards ni de complexité supplémentaire.

En permettant une inférence rapide et fiable sur le matériel périphérique, YOLO26 contribue à faire de l'IA visuelle une composante naturelle de la robotique et des systèmes industriels, plutôt qu'un défi à déployer et à maintenir.

Principaux points à retenir

YOLO26 a été conçu pour la périphérie, où les contraintes du monde réel telles que la latence, la mémoire et la fiabilité définissent ce qui est possible. En concevant le modèle autour d'une exécution CPU, d'une inférence de bout en bout et d'un déploiement plus simple, YOLO26 rend l'IA visuelle pratique à intégrer dans des systèmes réels. Cette approche axée sur la périphérie permet un large éventail d'applications, de la robotique et de la vision industrielle à l'IA embarquée et sur appareil, où les performances et la prévisibilité sont primordiales.

Rejoignez notre communauté grandissante et explorez notre dépôt GitHub pour des ressources pratiques sur l'IA. Pour construire avec Vision AI dès aujourd'hui, découvrez nos options de licence. Découvrez comment l 'IA transforme l'agriculture et comment Vision AI façonne l'avenir dans le domaine de la santé en visitant nos pages de solutions.

L'impact de la conception plus rapide et axée sur la périphérie Ultralytics

La réalité du déploiement en périphérie

Pourquoi la vision périphérique exige un modèle de performance différent

La base de la vitesse : une conception axée sur les bords

Inférence de bout en bout et coût du post-traitement

Comment YOLO26 supprime NMS pourquoi cela le rend plus rapide

Suppression du DFL pour permettre de véritables performances de bout en bout

D'où vient cette augmentation de 43 % de la vitesse CPU ?

L'impact de YOLO26 sur le déploiement en périphérie et les exportations

Une inférence plus rapide en périphérie permet le développement de la robotique et de l'IA appliquée à la vision industrielle.

Principaux points à retenir

En savoir plus dans cette catégorie

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Automatisation de la gestion des incidents routiers avec Ultralytics

Découvrez pourquoi Ultralytics est plus facile à mettre en production !

Construisons ensemble l'avenir
de l'IA !

L'impact de la conception plus rapide et axée sur la périphérie Ultralytics

La réalité du déploiement en périphérie

Pourquoi la vision périphérique exige un modèle de performance différent

La base de la vitesse : une conception axée sur les bords

Inférence de bout en bout et coût du post-traitement

Comment YOLO26 supprime NMS pourquoi cela le rend plus rapide

Suppression du DFL pour permettre de véritables performances de bout en bout

D'où vient cette augmentation de 43 % de la vitesse CPU ?

L'impact de YOLO26 sur le déploiement en périphérie et les exportations

Une inférence plus rapide en périphérie permet le développement de la robotique et de l'IA appliquée à la vision industrielle.

Principaux points à retenir

En savoir plus dans cette catégorie

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Automatisation de la gestion des incidents routiers avec Ultralytics

Découvrez pourquoi Ultralytics est plus facile à mettre en production !

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !