Un guide sur l'architecture U-Net et ses applications
Apprends-en plus sur l'architecture U-Net, comment elle prend en charge la segmentation d'images, ses applications et pourquoi elle est significative dans l'évolution de la vision par ordinateur.

La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui se concentre sur l'analyse de données visuelles. Elle a ouvert la voie à de nombreux systèmes de pointe, comme l'automatisation de l'inspection des produits en usine et l'aide à la navigation des véhicules autonomes sur les routes.
L'une des tâches les plus connues en vision par ordinateur est la détection d'objets. Cette tâche permet aux modèles de localiser et d'identifier des objets dans une image à l'aide de boîtes englobantes (bounding boxes). Bien que ces boîtes soient utiles pour diverses applications, elles ne fournissent qu'une estimation approximative de l'emplacement d'un objet.
Cependant, dans des domaines comme la santé, où la précision est cruciale, les cas d'usage de l'IA en vision dépendent de bien plus que de la simple identification d'un objet. Souvent, ils nécessitent également des informations liées à la forme et à la position exactes des objets.
C'est exactement ce que la tâche de vision par ordinateur appelée segmentation est conçue pour faire. Au lieu d'utiliser des boîtes englobantes, les modèles de segmentation détectent les objets au niveau du pixel. Au fil des ans, les chercheurs ont développé des modèles de vision par ordinateur spécialisés pour la segmentation.
L'un de ces modèles est U-Net. Bien que des modèles plus récents et avancés aient surpassé ses performances, U-Net occupe une place importante dans l'histoire de la vision par ordinateur. Dans cet article, nous examinerons de plus près l'architecture U-Net, son fonctionnement, ses domaines d'application et sa comparaison avec les modèles de segmentation plus modernes disponibles aujourd'hui.

Fig 1. Un exemple de segmentation utilisant le modèle d'apprentissage profond U-Net. (Source)
Link to this sectionL'histoire de la segmentation d'image#
Avant de plonger dans ce qu'est U-Net, essayons d'abord de mieux comprendre comment les modèles de segmentation d'image ont évolué.
Initialement, la vision par ordinateur reposait sur des techniques traditionnelles comme la détection de contours, le seuillage ou la croissance de régions pour séparer les objets dans une image. Ces techniques étaient utilisées pour détecter les limites des objets à l'aide de contours, séparer des régions par intensité de pixels et regrouper des pixels similaires. Elles fonctionnaient pour des cas simples, mais échouaient souvent lorsque les images comportaient du bruit, des formes qui se chevauchent ou des limites floues.
Suite à l'essor de l'apprentissage profond en 2012, les chercheurs ont introduit le concept de réseaux entièrement convolutifs (FCN) en 2014 pour des tâches comme la segmentation sémantique. Ces modèles ont remplacé certaines parties d'un réseau convolutif pour permettre à l'ordinateur de regarder une image entière d'un coup, au lieu de la diviser en plus petits morceaux. Cela a rendu possible la création par le modèle de cartes détaillées illustrant plus clairement le contenu d'une image.

Fig 2. L'évolution des algorithmes de segmentation basés sur l'apprentissage profond. (Source)
En s'appuyant sur les FCN, U-Net a été introduit par des chercheurs de l'Université de Fribourg en 2015. Il était initialement conçu pour la segmentation d'images biomédicales. En particulier, U-Net a été conçu pour être performant dans des situations où les données annotées sont limitées.
Par ailleurs, des versions ultérieures comme UNet++ et TransUNet ont ajouté des améliorations telles que des couches d'attention et une meilleure extraction de caractéristiques. Les couches d'attention aident le modèle à se concentrer sur les régions clés, tandis qu'une extraction améliorée des caractéristiques capture des informations plus détaillées.
Link to this sectionQu'est-ce qu'U-Net, et comment les caractéristiques circulent-elles à travers le modèle ?#
U-Net est un modèle d'apprentissage profond conçu spécifiquement pour la segmentation d'image. Il prend une image en entrée et produit un masque de segmentation qui classifie chaque pixel selon l'objet ou la région auquel il appartient.
Le modèle tire son nom de son architecture en forme de U. Il se compose de deux parties principales : un encodeur qui compresse l'image et apprend ses caractéristiques, et un décodeur qui l'élargit pour retrouver la taille d'origine. Cette conception crée une forme de U symétrique, ce qui aide le modèle à comprendre à la fois la structure globale d'une image et ses détails les plus fins.
Une caractéristique cruciale d'U-Net est l'utilisation de connexions de saut (skip connections), qui permettent aux informations de l'encodeur d'être transmises directement au décodeur. Cela signifie que le modèle peut préserver des détails importants qui pourraient être perdus lors de la compression de l'image.
Link to this sectionUn aperçu de l'architecture d'U-Net#
Voici un aperçu du fonctionnement de l'architecture d'U-Net :
- Image d'entrée : U-Net commence par une image 2D, comme un scanner médical ou une photo satellite. L'objectif est d'assigner une étiquette de classe à chaque pixel de l'image.
- Sous-échantillonnage (Downsampling) : L'image passe par des couches convolutives qui apprennent des caractéristiques visuelles importantes. À mesure que l'image traverse les différentes couches, sa résolution diminue et le modèle identifie des modèles plus larges.
- Couche goulot d'étranglement (Bottleneck) : Au centre du réseau, les cartes de caractéristiques atteignent leur résolution spatiale la plus faible tout en capturant des caractéristiques sémantiques de haut niveau. En termes simples, cette représentation compressée des cartes de caractéristiques constitue le contexte global de l'entrée.
- Suréchantillonnage (Upsampling) : Le réseau reconstruit ensuite l'image en augmentant progressivement la résolution. Des convolutions transposées aident à étendre les cartes de caractéristiques vers la taille d'origine.
- Connexions de saut (Skip connections) : Les cartes de caractéristiques provenant du chemin de sous-échantillonnage sont concaténées avec celles du chemin de suréchantillonnage. Cela permet de préserver les détails spatiaux fins tout en intégrant des informations contextuelles de haut niveau.
- La sortie est une carte de segmentation : La sortie finale est un masque de segmentation au niveau des pixels correspondant à la taille de l'entrée. Chaque pixel est classé dans une catégorie telle que objet, arrière-plan ou région d'intérêt.

Fig 3. Diagramme de l'architecture U-Net. (Source)
Link to this sectionComprendre la différence entre ViT et U-Net#
En explorant U-Net, tu pourrais te demander en quoi il diffère d'autres modèles d'apprentissage profond, comme le Vision Transformer (ViT), qui peut aussi effectuer des tâches de segmentation. Bien que les deux modèles puissent effectuer des tâches similaires, ils diffèrent dans leur construction et la manière dont ils gèrent la segmentation.
U-Net fonctionne en traitant les images au niveau des pixels via des couches convolutives dans une structure encodeur-décodeur. Il est souvent utilisé pour des tâches nécessitant une segmentation précise, comme les scanners médicaux ou les scènes de voitures autonomes.
D'un autre côté, le Vision Transformer (ViT) divise les images en patchs et les traite simultanément via des mécanismes d'attention. Il utilise l'auto-attention (un mécanisme qui permet au modèle de peser l'importance des différentes parties de l'image les unes par rapport aux autres) pour capturer comment les différentes parties de l'image sont liées, contrairement à l'approche convolutive d'U-Net.
Une autre différence importante est que ViT a généralement besoin de plus de données pour bien fonctionner, mais il excelle dans la détection de modèles complexes. U-Net, en revanche, est performant avec des jeux de données plus petits, est plus rapide à entraîner et nécessite souvent moins de temps d'entraînement.
Link to this sectionApplications du modèle U-Net#
Maintenant que nous avons une meilleure compréhension de ce qu'est U-Net et de son fonctionnement, explorons comment U-Net a été appliqué dans différents domaines.
Link to this sectionSegmentation d'hémorragie cérébrale en imagerie médicale#
U-Net est devenu une méthode fiable pour la segmentation au niveau des pixels d' images médicales complexes, particulièrement durant son apogée dans la recherche. Il était utilisé par les chercheurs pour mettre en évidence des zones clés dans des scanners médicaux, tels que les tumeurs et les signes d'hémorragie interne dans les images CT et IRM. Cette approche a considérablement amélioré la précision des diagnostics et rationalisé l'analyse de données médicales complexes dans les environnements de recherche.
Un exemple de l'impact d'U-Net dans la recherche en santé est son utilisation pour identifier les accidents vasculaires cérébraux (AVC) et les hémorragies cérébrales dans les scanners médicaux. Les chercheurs pouvaient utiliser U-Net pour analyser des scanners crâniens et mettre en évidence les zones préoccupantes, permettant une identification plus rapide des cas nécessitant une attention immédiate.

Fig 4. Segmentation de lésions d'accident vasculaire cérébral hémorragique utilisant U-Net 3D. (Source)
Link to this sectionSegmentation des cultures en agriculture#
Un autre domaine où les chercheurs ont utilisé U-Net est l'agriculture, notamment pour segmenter les cultures, les mauvaises herbes et le sol. Cela aide les agriculteurs à surveiller la santé des plantes, à estimer les rendements et à prendre de meilleures décisions sur de grandes exploitations. Par exemple, U-Net peut séparer les cultures des mauvaises herbes, rendant l'application d'herbicides plus efficace et réduisant le gaspillage.
Pour résoudre des défis comme le flou de mouvement dans les images de drones, les chercheurs ont amélioré U-Net avec des techniques de défloutage d'image. Cela garantit une segmentation plus claire, même lorsque les données sont collectées en mouvement, comme lors de relevés aériens.

Fig 5. Séparation des cultures des mauvaises herbes dans les champs agricoles avec U-Net. (Source)
Link to this sectionConduite autonome#
Avant l'introduction de modèles d'IA plus avancés, U-Net a joué un rôle essentiel dans l'exploration de la manière dont la segmentation pouvait améliorer la conduite autonome. Dans les véhicules autonomes, la segmentation sémantique d'U-Net peut être utilisée pour classer chaque pixel dans une image en catégories comme route, véhicule, piéton et marquages au sol. Cela offre à la voiture une vision claire de son environnement, facilitant une navigation sûre et une prise de décision efficace.

Fig 6. Une scène de route où la zone carrossable est segmentée en utilisant U-Net. (Source)
Link to this sectionAvantages et inconvénients d'U-Net#
Encore aujourd'hui, U-Net reste un bon choix pour la segmentation d'image parmi les chercheurs en raison de son équilibre entre simplicité, précision et adaptabilité. Voici quelques-uns des avantages clés qui le distinguent :
- Adaptable à différentes modalités : U-Net a été adapté à différents types de données, y compris les scanners médicaux 3D, les images satellites et même les images vidéo.
- Inférence rapide lorsqu'optimisé : Lorsqu'il est correctement ajusté, U-Net peut s'exécuter efficacement, le rendant adapté aux applications en temps réel ou quasi-temps réel.
- Open-source et communauté : U-Net est disponible dans les principales bibliothèques d'apprentissage profond et est soutenu par une large communauté de développeurs et de chercheurs.
Bien qu'U-Net ait de nombreux atouts, il y a aussi quelques limitations à garder à l'esprit. Voici quelques facteurs à prendre en considération :
- Sensible à la qualité des données : La performance d'U-Net peut être négativement affectée par des données de faible qualité, telles que des images bruitées ou à basse résolution.
- Sujet au surapprentissage (overfitting) avec de petits jeux de données : Bien qu'U-Net fonctionne bien avec des données limitées, il risque toujours le surapprentissage s'il n'est pas correctement régularisé, en particulier lorsque le jeu de données est trop petit ou manque de diversité.
- Ressources computationnelles : U-Net peut être coûteux en termes de calcul, surtout lors du travail avec de grands jeux de données, nécessitant des ressources matérielles importantes pour l'entraînement.
Link to this sectionPoints clés#
U-Net a été une étape clé dans l'évolution de la segmentation d'image. Il a prouvé que les modèles d'apprentissage profond pouvaient fournir des résultats précis en utilisant des jeux de données plus petits, surtout dans des domaines comme l'imagerie médicale.
Cette percée a ouvert la voie à des applications plus avancées dans divers domaines. À mesure que la vision par ordinateur continue d'évoluer, les modèles de segmentation comme U-Net restent fondamentaux pour permettre aux machines de comprendre et d'interpréter les données visuelles avec une haute précision.
Tu cherches à construire tes propres projets de vision par ordinateur ? Explore notre dépôt GitHub pour approfondir tes connaissances en IA et consulte nos options de licence. Apprends comment la vision par ordinateur dans la santé améliore l'efficacité et explore l'impact de l'IA dans le commerce de détail en visitant nos pages de solutions ! Rejoins notre communauté grandissante dès maintenant !






