Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Un guide sur l'architecture U-Net et ses applications

Abirami Vina

5 min de lecture

15 juil. 2025

Découvrez l'architecture U-Net, comment elle prend en charge la segmentation d'images, ses applications et pourquoi elle est importante dans l'évolution de la vision par ordinateur.

La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui se concentre sur l'analyse des données visuelles. Elle a ouvert la voie à de nombreux systèmes de pointe, tels que l'automatisation du processus d'inspection des produits dans les usines et l'aide aux véhicules autonomes pour naviguer sur les routes. 

L'une des tâches de vision par ordinateur les plus connues est la détection d'objets. Cette tâche permet aux modèles de localiser et d'identifier des objets dans une image à l'aide de boîtes englobantes. Bien que les boîtes englobantes soient utiles pour diverses applications, elles ne fournissent qu'une estimation approximative de l'emplacement d'un objet.

Cependant, dans des domaines comme la santé, où la précision est cruciale, les cas d'utilisation de la vision IA dépendent de plus que la simple identification d'un objet. Souvent, ils nécessitent également des informations relatives à la forme et à la position exactes des objets.

C'est exactement ce que la tâche de vision par ordinateur, la segmentation, est conçue pour faire. Au lieu d'utiliser des boîtes englobantes, les modèles de segmentation détectent les objets au niveau du pixel. Au fil des ans, les chercheurs ont développé des modèles de vision par ordinateur spécialisés pour la segmentation.

L'un de ces modèles est U-Net. Bien que des modèles plus récents et plus avancés aient surpassé ses performances, U-Net occupe une place importante dans l'histoire de la vision par ordinateur. Dans cet article, nous examinerons de plus près l'architecture U-Net, son fonctionnement, où elle a été utilisée et comment elle se compare aux modèles de segmentation plus modernes disponibles aujourd'hui.

Fig. 1. Exemple de segmentation utilisant le modèle d'apprentissage profond U-Net. (Source)

L'histoire de la segmentation d'images

Avant de nous plonger dans ce qu'est U-Net, essayons d'abord de mieux comprendre comment les modèles de segmentation d'image ont évolué.

Initialement, la vision par ordinateur reposait sur des techniques traditionnelles telles que la détection de contours, le seuillage ou la croissance de régions pour séparer les objets dans une image. Ces techniques étaient utilisées pour détecter les limites des objets à l'aide des contours, séparer les régions par intensité de pixel et regrouper les pixels similaires. Elles fonctionnaient pour les cas simples, mais échouaient souvent lorsque les images présentaient du bruit, des formes qui se chevauchent ou des limites floues.

Suite à l'essor de l'apprentissage profond en 2012, les chercheurs ont introduit le concept de réseaux entièrement convolutionnels (FCN) en 2014 pour des tâches telles que la segmentation sémantique. Ces modèles ont remplacé certaines parties d'un réseau convolutionnel pour permettre à l'ordinateur de regarder une image entière en une seule fois, au lieu de la diviser en morceaux plus petits. Cela a permis au modèle de créer des cartes détaillées qui montrent plus clairement ce qu'il y a dans une image.

Fig. 2. L'évolution des algorithmes de segmentation basés sur l'apprentissage profond. (Source)

S'appuyant sur les FCN, U-Net a été introduit par des chercheurs de l'Université de Fribourg en 2015. Il a été initialement conçu pour la segmentation d'images biomédicales. En particulier, U-Net a été conçu pour bien fonctionner dans les situations où les données annotées sont limitées. 

Par ailleurs, les versions ultérieures telles que UNet++ et TransUNet ont ajouté des améliorations telles que des couches d'attention et une meilleure extraction des caractéristiques. Les couches d'attention aident le modèle à se concentrer sur les régions clés, tandis que l'extraction améliorée des caractéristiques capture des informations plus détaillées.

Qu'est-ce que U-Net, et comment les caractéristiques circulent-elles à travers le modèle ?

U-Net est un modèle d'apprentissage profond conçu spécifiquement pour la segmentation d'images. Il prend une image en entrée et produit un masque de segmentation qui classe chaque pixel en fonction de l'objet ou de la région auquel il appartient.

Le modèle tire son nom de son architecture en forme de U. Il se compose de deux parties principales : un encodeur qui compresse l'image et apprend ses caractéristiques, et un décodeur qui la redéploie à sa taille d'origine. Cette conception crée une forme de U symétrique, ce qui aide le modèle à comprendre à la fois la structure globale d'une image et ses détails les plus fins.

Une caractéristique essentielle d'U-Net est l'utilisation de connexions directes, qui permettent de transmettre les informations de l'encodeur directement au décodeur. Cela signifie que le modèle peut préserver les détails importants qui pourraient être perdus lors de la compression de l'image. 

Aperçu de l'architecture d'U-Net

Voici un aperçu du fonctionnement de l'architecture d'U-Net :

  • Image d'entrée : U-Net commence avec une image 2D, telle qu'un scan médical ou une photo satellite. L'objectif est d'attribuer une étiquette de classe à chaque pixel de l'image.

  • Sous-échantillonnage : L'image passe par des couches convolutives qui apprennent les caractéristiques visuelles importantes. Au fur et à mesure que l'image se déplace à travers différentes couches, sa résolution diminue et le modèle identifie des modèles plus larges.

  • Couche de goulot d'étranglement : Au centre du réseau, les cartes de caractéristiques atteignent leur plus petite résolution spatiale tout en capturant des caractéristiques sémantiques de haut niveau. En termes simples, cette représentation compressée des cartes de caractéristiques est le contexte global de l'entrée.

  • Suréchantillonnage : Le réseau reconstruit ensuite l'image en augmentant progressivement la résolution. Les convolutions transposées aident à étendre les cartes de caractéristiques pour revenir à la taille d'origine.

  • Connexions de saut : Les cartes de caractéristiques du chemin de sous-échantillonnage sont concaténées avec celles du chemin de sur-échantillonnage. Cela permet de préserver les détails spatiaux fins tout en intégrant des informations contextuelles de haut niveau.
  • La sortie est une carte de segmentation : La sortie finale est un masque de segmentation pixel par pixel correspondant à la taille de l'entrée. Chaque pixel est classé dans une catégorie telle que l'objet, l'arrière-plan ou la région d'intérêt.
Fig. 3. Schéma de l'architecture U-Net. (Source)

Comprendre la différence entre ViT et U-Net

En explorant U-Net, vous vous demandez peut-être en quoi il diffère des autres modèles d'apprentissage profond, comme le Vision Transformer (ViT), qui peut également effectuer des tâches de segmentation. Bien que les deux modèles puissent effectuer des tâches similaires, ils diffèrent en termes de construction et de gestion de la segmentation.

U-Net fonctionne en traitant les images au niveau des pixels par le biais de couches de convolution dans une structure d'encodeur-décodeur. Elle est souvent utilisée pour les tâches qui nécessitent une segmentation précise, comme les scanners médicaux ou les scènes de voitures autonomes. 

D'un autre côté, le Vision Transformer (ViT) divise les images en patchs et les traite simultanément grâce à des mécanismes d'attention. Il utilise l'auto-attention (un mécanisme qui permet au modèle de pondérer l'importance des différentes parties de l'image les unes par rapport aux autres) pour capturer la façon dont les différentes parties de l'image sont liées les unes aux autres, contrairement à l'approche convolutionnelle de U-Net.

Une autre différence importante est que ViT a généralement besoin de plus de données pour bien fonctionner, mais il est excellent pour identifier des schémas complexes. U-Net, en revanche, fonctionne bien avec des ensembles de données plus petits, est plus rapide à entraîner et nécessite souvent moins de temps d'entraînement.

Applications du modèle U-Net

Maintenant que nous comprenons mieux ce qu'est U-Net et comment il fonctionne, explorons comment U-Net a été appliqué dans différents domaines.

Segmentation des hémorragies cérébrales en imagerie médicale

U-Net est devenue une méthode fiable pour la segmentation au niveau des pixels d'images médicales complexes, en particulier à son apogée dans la recherche. Elle a été utilisée par les chercheurs pour mettre en évidence les zones clés des scanners médicaux, telles que les tumeurs et les signes de saignement interne dans les images CT et IRM. Cette approche a considérablement amélioré la précision des diagnostics et rationalisé l'analyse des données médicales complexes dans les contextes de recherche.

Un exemple de l'impact d'U-Net dans la recherche en soins de santé est son utilisation dans l'identification des accidents vasculaires cérébraux et des hémorragies cérébrales dans les analyses médicales. Les chercheurs pourraient utiliser U-Net pour analyser les scanners de la tête et mettre en évidence les zones préoccupantes, ce qui permettrait d'identifier plus rapidement les cas nécessitant une attention immédiate.

Fig. 4. Segmentation des lésions d'accident vasculaire cérébral hémorragique à l'aide de 3D U-Net. (Source)

Segmentation des cultures dans l'agriculture

Un autre domaine où les chercheurs ont utilisé U-Net est l'agriculture, en particulier pour la segmentation des cultures, des mauvaises herbes et du sol. Il aide les agriculteurs à surveiller la santé des plantes, à estimer les rendements et à prendre de meilleures décisions dans les grandes exploitations. Par exemple, U-Net peut séparer les cultures des mauvaises herbes, ce qui rend l'application d'herbicides plus efficace et réduit le gaspillage.

Pour résoudre les problèmes tels que le flou de mouvement dans les images de drone, les chercheurs ont amélioré U-Net avec des techniques de défloutage d'image. Cela garantit une segmentation plus claire, même lorsque les données sont collectées en mouvement, comme lors de levés aériens.

Fig 5. Séparation des cultures et des mauvaises herbes dans les champs agricoles avec U-Net.

Conduite autonome

Avant l'introduction de modèles d'IA plus avancés, U-Net a joué un rôle essentiel dans l'exploration de la manière dont la segmentation pouvait améliorer la conduite autonome. Dans les véhicules autonomes, la segmentation sémantique d'U-Net peut être utilisée pour classer chaque pixel d'une image dans des catégories telles que la route, le véhicule, le piéton et le marquage des voies. Cela fournit à la voiture une vue claire de son environnement, ce qui facilite la navigation sûre et la prise de décision efficace.

Fig. 6. Une scène de route où la zone praticable est segmentée à l'aide de U-Net. (Source)

Avantages et inconvénients de U-Net

Aujourd'hui encore, U-Net reste un bon choix pour la segmentation d'images parmi les chercheurs en raison de son équilibre entre simplicité, précision et adaptabilité. Voici quelques-uns des principaux avantages qui le distinguent :

  • Adaptable à différentes modalités : U-Net a été adapté à différents types de données, y compris les scans médicaux 3D, les images satellites et même les trames vidéo.

  • Inférence rapide une fois optimisée : Lorsqu'elle est correctement réglée, U-Net peut fonctionner efficacement, ce qui la rend adaptée aux applications en temps réel ou quasi-réel.

  • Open source et communautaire :  U-Net est disponible dans les principales bibliothèques de deep learning et bénéficie du soutien d'une large communauté de développeurs et de chercheurs.

Bien que U-Net ait de nombreux atouts, il y a aussi quelques limites à garder à l'esprit. Voici quelques facteurs à prendre en compte : 

  • Sensible à la qualité des données : Les performances d'U-Net peuvent être affectées négativement par des données de mauvaise qualité, telles que des images bruitées ou à faible résolution.

  • Sujet au surapprentissage avec de petits ensembles de données : Bien qu'U-Net fonctionne bien avec des données limitées, il risque toujours de surapprendre s'il n'est pas correctement régularisé, en particulier lorsque l'ensemble de données est trop petit ou manque de diversité.

  • Ressources de calcul : U-Net peut être coûteux en calcul, en particulier lorsqu'il s'agit de travailler avec de grands ensembles de données, nécessitant des ressources matérielles importantes pour l'entraînement.

Principaux points à retenir

U-Net a été une étape clé dans l'évolution de la segmentation d'images. Elle a prouvé que les modèles d'apprentissage profond peuvent fournir des résultats précis en utilisant des ensembles de données plus petits, en particulier dans des domaines comme l'imagerie médicale. 

Cette avancée a ouvert la voie à des applications plus avancées dans divers domaines. Alors que la vision par ordinateur continue d'évoluer, les modèles de segmentation comme U-Net restent fondamentaux pour permettre aux machines de comprendre et d'interpréter les données visuelles avec une grande précision.

Vous cherchez à construire vos propres projets de vision par ordinateur ? Explorez notre dépôt GitHub pour approfondir vos connaissances en matière d'IA et consultez nos options de licence. Découvrez comment la vision par ordinateur dans le secteur de la santé améliore l'efficacité et explorez l'impact de l'IA dans le commerce de détail en visitant nos pages de solutions ! Rejoignez notre communauté en pleine croissance dès maintenant !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers