Un guide sur l'architecture U-Net et ses applications

Abirami Vina

5 minutes de lecture

15 juillet 2025

Découvrez l'architecture U-Net, la manière dont elle prend en charge la segmentation des images, ses applications et son importance dans l'évolution de la vision par ordinateur.

La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui se concentre sur l'analyse des données visuelles. Elle a ouvert la voie à de nombreux systèmes de pointe, tels que l'automatisation du processus d'inspection des produits dans les usines et l'aide à la navigation des véhicules autonomes. 

L'une des tâches de vision par ordinateur les plus connues est la détection d'objets. Cette tâche permet aux modèles de localiser et d'identifier des objets dans une image à l'aide de boîtes de délimitation. Bien que les boîtes englobantes soient utiles pour diverses applications, elles ne fournissent qu'une estimation approximative de l'emplacement d'un objet.

Cependant, dans des domaines tels que les soins de santé, où la précision est cruciale, les cas d'utilisation de Vision AI ne se limitent pas à l'identification d'un objet. Souvent, ils nécessitent également des informations relatives à la forme et à la position exactes des objets.

C'est exactement ce que la tâche de vision par ordinateur, la segmentation, est conçue pour faire. Au lieu d'utiliser des boîtes de délimitation, les modèles de segmentation détectent les objets au niveau des pixels. Au fil des ans, les chercheurs ont développé des modèles de vision artificielle spécialisés pour la segmentation.

L'un de ces modèles est U-Net. Bien que des modèles plus récents et plus avancés aient surpassé ses performances, U-Net occupe une place importante dans l 'histoire de la vision par ordinateur. Dans cet article, nous examinerons de plus près l'architecture U-Net, son fonctionnement, les domaines dans lesquels elle a été utilisée et sa comparaison avec les modèles de segmentation plus modernes disponibles aujourd'hui.

Fig. 1. Exemple de segmentation à l'aide du modèle d'apprentissage profond U-Net.(Source)

L'histoire de la segmentation d'images

Avant de nous pencher sur ce qu'est U-Net, commençons par nous faire une idée plus précise de l'évolution des modèles de segmentation d'images.

Au départ, la vision par ordinateur s'appuyait sur des techniques traditionnelles telles que la détection des contours, le seuillage ou la croissance des régions pour séparer les objets dans une image. Ces techniques étaient utilisées pour détecter les limites des objets à l'aide des arêtes, séparer les régions en fonction de l'intensité des pixels et regrouper les pixels similaires. Elles fonctionnaient dans les cas simples, mais échouaient souvent lorsque les images contenaient du bruit, des formes qui se chevauchaient ou des limites floues.

Après l'essor du deep learning en 2012, les chercheurs ont introduit en 2014 le concept de réseaux entièrement convolutifs (fully convolutional networks, FCN) pour des tâches telles que la segmentation sémantique. Ces modèles remplacent certaines parties d'un réseau convolutionnel pour permettre à l'ordinateur d'examiner une image entière en une seule fois, au lieu de la décomposer en petits morceaux. Le modèle peut ainsi créer des cartes détaillées qui montrent plus clairement le contenu d'une image.

Fig 2. L'évolution des algorithmes de segmentation basés sur l'apprentissage profond.(Source)

S'appuyant sur les FCN, U-Net a été introduit par des chercheurs de l'université de Fribourg en 2015. Il a été conçu à l'origine pour la segmentation d'images biomédicales. En particulier, U-Net a été conçu pour être performant dans les situations où les données annotées sont limitées. 

Les versions ultérieures, telles que UNet++ et TransUNet, ont ajouté des améliorations telles que des couches d'attention et une meilleure extraction des caractéristiques. Les couches d'attention aident le modèle à se concentrer sur les régions clés, tandis que l'extraction améliorée des caractéristiques permet de capturer des informations plus détaillées.

Qu'est-ce que U-Net, et comment les caractéristiques circulent-elles dans le modèle ?

U-Net est un modèle d'apprentissage profond conçu spécifiquement pour la segmentation d'images. Il prend une image en entrée et produit un masque de segmentation qui classe chaque pixel en fonction de l'objet ou de la région auquel il appartient.

Le modèle tire son nom de son architecture en forme de U. Il se compose de deux parties principales : un encodeur qui compresse l'image et apprend ses caractéristiques, et un décodeur qui l'agrandit pour lui redonner sa taille d'origine. Cette conception crée une forme symétrique en U, qui aide le modèle à comprendre à la fois la structure globale d'une image et ses détails les plus fins.

L'une des caractéristiques essentielles d'U-Net est l'utilisation de connexions sautées, qui permettent de transmettre directement au décodeur les informations provenant du codeur. Cela signifie que le modèle peut préserver des détails importants qui pourraient être perdus lorsque l'image est compressée. 

Aperçu de l'architecture de U-Net

Voici un aperçu du fonctionnement de l'architecture d'U-Net :

  • Image d'entrée : U-Net part d'une image en 2D, telle qu'un examen médical ou une photo satellite. L'objectif est d'attribuer une étiquette de classe à chaque pixel de l'image.

  • Le sous-échantillonnage : L'image passe par des couches de convolution qui apprennent les caractéristiques visuelles importantes. Au fur et à mesure que l'image traverse les différentes couches, sa résolution diminue et le modèle identifie des modèles plus larges.

  • Couche goulot d'étranglement : Au centre du réseau, les cartes de caractéristiques atteignent leur plus petite résolution spatiale tout en capturant des caractéristiques sémantiques de haut niveau. En d'autres termes, cette représentation comprimée des cartes de caractéristiques constitue le contexte global de l'entrée.

  • Le suréchantillonnage : Le réseau reconstruit ensuite l'image en augmentant progressivement la résolution. Les convolutions transposées permettent d'étendre les cartes de caractéristiques vers la taille d'origine.

  • Sauter les connexions : Les cartes de caractéristiques du chemin de sous-échantillonnage sont concaténées avec celles du chemin de suréchantillonnage. Cela permet de préserver les détails spatiaux les plus fins tout en intégrant des informations contextuelles de haut niveau.
  • La sortie est une carte de segmentation : La sortie finale est un masque de segmentation par pixel correspondant à la taille d'entrée. Chaque pixel est classé dans une catégorie telle que l'objet, l'arrière-plan ou la région d'intérêt.
Fig. 3. Schéma de l'architecture du réseau U-Net.(Source)

Comprendre la différence entre ViT et U-Net

En explorant U-Net, vous vous demandez peut-être en quoi il diffère d'autres modèles d'apprentissage profond, comme le Vision Transformer (ViT), qui peut également effectuer des tâches de segmentation. Bien que les deux modèles puissent effectuer des tâches similaires, ils diffèrent en termes de construction et de traitement de la segmentation.

U-Net traite les images au niveau des pixels par le biais de couches convolutives dans une structure codeur-décodeur. Il est souvent utilisé pour des tâches nécessitant une segmentation précise, comme les scanners médicaux ou les scènes de voitures autonomes. 

En revanche, le transformateur de vision (ViT) décompose les images en parcelles et les traite simultanément grâce à des mécanismes d'attention. Il utilise l'auto-attention (un mécanisme qui permet au modèle d'évaluer l'importance des différentes parties de l'image les unes par rapport aux autres) pour saisir la manière dont les différentes parties de l'image sont liées les unes aux autres, contrairement à l'approche convolutionnelle d'U-Net.

Une autre différence importante est que le ViT a généralement besoin de plus de données pour bien fonctionner, mais il est très efficace pour détecter des modèles complexes. U-Net, quant à lui, fonctionne bien avec des ensembles de données plus petits, est plus rapide à former et nécessite souvent moins de temps de formation.

Applications du modèle U-Net

Maintenant que nous avons une meilleure compréhension de ce qu'est U-Net et de son fonctionnement, examinons comment U-Net a été appliqué dans différents domaines.

Segmentation des hémorragies cérébrales en imagerie médicale

U-Net est devenu une méthode fiable pour la segmentation au niveau des pixels d'images médicales complexes, en particulier pendant sa période de prédilection pour la recherche. Les chercheurs l'ont utilisé pour mettre en évidence les zones clés des scanners médicaux, telles que les tumeurs et les signes d'hémorragie interne dans les images de tomodensitométrie et d'imagerie par résonance magnétique. Cette approche a permis d'améliorer considérablement la précision des diagnostics et de rationaliser l'analyse de données médicales complexes dans le cadre de la recherche.

Un exemple de l'impact d'U-Net sur la recherche dans le domaine de la santé est son utilisation pour identifier les accidents vasculaires cérébraux et les hémorragies cérébrales dans les scanners médicaux. Les chercheurs pourraient utiliser U-Net pour analyser les scanners de la tête et mettre en évidence les zones préoccupantes, ce qui permettrait d'identifier plus rapidement les cas nécessitant une attention immédiate.

Fig. 4. Segmentation des lésions cérébrales hémorragiques à l'aide de 3D U-Net.(Source)

Segmentation des cultures dans l'agriculture

Les chercheurs ont également utilisé U-Net dans le domaine de l'agriculture, notamment pour segmenter les cultures, les mauvaises herbes et le sol. Il aide les agriculteurs à surveiller la santé des plantes, à estimer les rendements et à prendre de meilleures décisions dans les grandes exploitations. Par exemple, U-Net peut séparer les cultures des mauvaises herbes, ce qui rend l'application d'herbicides plus efficace et réduit le gaspillage.

Pour relever des défis tels que le flou de mouvement dans les images de drones, les chercheurs ont amélioré U-Net avec des techniques de débrouillage d'image. Cela garantit une segmentation plus claire, même lorsque les données sont collectées en mouvement, comme c'est le cas lors des enquêtes aériennes.

Fig. 5. Séparation des cultures et des mauvaises herbes dans les champs agricoles avec U-Net.(Source)

Conduite autonome

Avant l'introduction de modèles d'IA plus avancés, U-Net a joué un rôle essentiel dans l'exploration de la manière dont la segmentation pouvait améliorer la conduite autonome. Dans les véhicules autonomes, la segmentation sémantique d'U-Net peut être utilisée pour classer chaque pixel d'une image dans des catégories telles que route, véhicule, piéton et marquage des voies. La voiture dispose ainsi d'une vision claire de son environnement, ce qui contribue à une navigation sûre et à une prise de décision efficace.

Fig. 6. Scène routière où la zone carrossable est segmentée à l'aide de U-Net.(Source)

Avantages et inconvénients d'U-Net

Aujourd'hui encore, U-Net reste un bon choix pour la segmentation d'images parmi les chercheurs en raison de son équilibre entre simplicité, précision et adaptabilité. Voici quelques-uns des principaux avantages qui le distinguent :

  • Adaptation à différentes modalités : U-Net a été adapté à différents types de données, y compris les scans médicaux en 3D, les images satellite et même les images vidéo.

  • Inférence rapide lorsqu'elle est optimisée : Lorsqu'il est correctement réglé, U-Net peut fonctionner efficacement, ce qui le rend adapté aux applications en temps réel ou quasi réel.

  • Logiciels libres et la communauté : U-Net est disponible dans les principales bibliothèques d'apprentissage profond et est soutenu par une large communauté de développeurs et de chercheurs.

Si U-Net a de nombreux atouts, il y a aussi quelques limites à prendre en compte. Voici quelques facteurs à prendre en considération : 

  • Sensible à la qualité des données : Les performances d'U-Net peuvent être affectées par des données de mauvaise qualité, telles que des images bruyantes ou de faible résolution.

  • Risque de surajustement avec de petits ensembles de données : Bien que U-Net donne de bons résultats avec des données limitées, il risque toujours d'être surajusté s'il n'est pas correctement régularisé, en particulier lorsque l'ensemble de données est trop petit ou manque de diversité.

  • Ressources informatiques : U-Net peut être coûteux en termes de calcul, en particulier lorsqu'il s'agit de grands ensembles de données, et nécessite des ressources matérielles importantes pour l'apprentissage.

Principaux enseignements

U-Net a été une étape clé dans l'évolution de la segmentation des images. Il a prouvé que les modèles d'apprentissage profond peuvent fournir des résultats précis en utilisant des ensembles de données plus petits, en particulier dans des domaines tels que l'imagerie médicale. 

Cette percée a ouvert la voie à des applications plus avancées dans divers domaines. Alors que la vision par ordinateur continue d'évoluer, les modèles de segmentation comme U-Net restent fondamentaux pour permettre aux machines de comprendre et d'interpréter les données visuelles avec une grande précision.

Vous souhaitez créer vos propres projets de vision par ordinateur ? Explorez notre dépôt GitHub pour approfondir vos connaissances sur l'IA et découvrez nos options de licence. Découvrez comment la vision par ordinateur améliore l'efficacité des soins de santé et explorez l'impact de l'IA dans le commerce de détail en visitant nos pages de solutions ! Rejoignez notre communauté grandissante dès maintenant !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers