Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

U-Net

Découvrez U-Net, la puissante architecture CNN pour la segmentation sémantique. Découvrez ses applications dans l'imagerie médicale, satellitaire et autonome.

U-Net est une architecture spécialisée pour réseaux neuronaux convolutifs (CNN) conçus pour effectuer une classification précise au niveau du pixel, connue sous le nom de segmentation sémantique. Contrairement aux modèles de classification traditionnels qui attribuent une seule étiquette à l'ensemble de l'image, U-Net prédit une classe pour chaque pixel, créant ainsi une carte détaillée qui décrit la forme exacte de l'emplacement des objets. chaque pixel, créant ainsi une carte détaillée qui indique la forme et l'emplacement exacts des objets. Développé à l'origine pour pour l'analyse d'images biomédicales, il est devenu une structure fondamentale dans le domaine de l'analyse d'images biomédicales et de l'analyse d'images biomédicales. vision par ordinateur (VA) en raison de sa sa capacité à travailler efficacement avec des données d'apprentissage tout en produisant des résultats des résultats de haute résolution.

L'architecture en U

Le nom "U-Net" est dérivé de son diagramme symétrique en forme de U, qui modifie un diagramme standard. autoencodeur standard. L'architecture est composée de trois sections principales qui collaborent pour extraire les caractéristiques et reconstruire l'image avec des masques de segmentation détaillés. avec des masques de segmentation détaillés.

  • La voie contractuelle (Encoder) : Le côté gauche du "U" fonctionne comme un CNN conventionnel. classique. Il applique des convolution et des opérations de mise en commun pour réduire progressivement les dimensions spatiales de l'image. Ce processus, connu sous le nom de sous-échantillonnagepermet d'augmenter le nombre de cartes de caractéristiques à chaque couche, ce qui permet au modèle d'apprendre un contexte complexe de haut niveau sur "ce" qui se trouve dans l'image.
  • Le chemin d'expansion (décodeur) : Le côté droit de l'architecture reflète le codeur mais effectue l'opération inverse. l'opération inverse. Il utilise des couches de résolution ascendante pour augmenter la résolution des caractéristiques jusqu'à la taille d'entrée originale. d'origine. Cette suréchantillonnage est cruciale pour pour propager le contexte aux couches de résolution supérieure et aider le réseau à comprendre "où" se trouvent les objets. sont situés.
  • Sauter les connexions : L'innovation déterminante de U-Net est l'utilisation de connexions sautées. Ces connexions concatènent les cartes de caractéristiques à haute résolution du chemin de contraction directement aux couches correspondantes dans le chemin d'expansion. couches correspondantes dans le chemin d'expansion. Ce mécanisme préserve les informations spatiales à grain fin qui sont généralement perdues lors de la réduction de l'échantillonnage, ce qui permet de générer des frontières nettes et précises. généralement perdues lors de la réduction de l'échantillonnage, ce qui permet de générer des frontières nettes et précises.

Applications concrètes

U-Net a été présenté dans l'article fondateur "U-Net : Réseaux convolutifs pour la segmentation d'images biomédicales" et a depuis été adapté à de nombreux secteurs d'activité exigeant une segmentation précise des images. localisation.

Analyse d'images médicales

Dans le domaine des soins de santé, la précision est essentielle. U-Net est largement utilisé dans l'analyse d'images médicales pour automatiser la détection des anomalies. Par exemple, il aide les radiologues à segmenter les tumeurs dans les IRM ou à compter les cellules individuelles dans les images de microscopie. ou en comptant les cellules individuelles dans les images de microscopie. l'IA dans les soins de santé.

Surveillance géospatiale et satellitaire

L'architecture est également essentielle pour l'analyse de l'imagerie satellitaire. Les modèles U-Net peuvent segment types d'occupation du sol - en distinguant l'eau, les forêts et les zones urbaines - afin de track déforestation ou de track santé des cultures. la déforestation ou surveiller la santé des cultures pour l'agriculture intelligente.

Distinction par rapport aux termes apparentés

Pour comprendre U-Net, il faut le distinguer des autres tâches de vision :

  • U-Net contre la détection d'objets : Alors que détection d'objets de détection d'objets localisent objets à l'aide d'un réseau rectangulaire rectangulairesU-Net produit un masque parfait au pixel près qui trace les contours exacts de l'objet.
  • U-Net vs. segmentation des instances : Le réseau U-Net standard effectue une segmentation sémantique, en traitant tous les objets de la même classe (par exemple, toutes les voitures) comme une seule région. objets de la même classe (par exemple, toutes les voitures) comme une seule région. En revanche, U-Net segmentation par instance fait la distinction entre les objets individuels d'une même classe. Les architectures modernes telles que YOLO11 ont évolué pour traiter avec une grande efficacité les tâches de détection et de segmentation. détection et de segmentation avec une grande efficacité.

Segmentation moderne avec Ultralytics

Alors que la mise en œuvre d'un U-Net brut implique souvent l'écriture d'un code verbeux dans des frameworks tels que PyTorch ou TensorFlowdes bibliothèques modernes simplifient ce processus. L'écosystème Ultralytics offre des modèles de segmentation optimisés qui qui s'appuient sur des principes architecturaux similaires pour des performances en temps réel.

L'exemple suivant montre comment utiliser un modèle pré-entraîné de modèle de segmentationYOLO11 pré-entraîné pour générer des des masques au niveau des pixels :

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image to detect and segment objects
results = model("path/to/image.jpg")

# Display the results with segmentation masks overlaid
results[0].show()

Ce flux de travail rationalisé permet aux développeurs d'intégrer des fonctionnalités de segmentation complexes dans les applications pour déploiement de modèles sur les appareils périphériques. Lors de l'entraînement de ces modèles sur des ensembles de données personnalisés, l'utilisation de la technologie augmentation des données est fortement de données est fortement recommandée afin d'éviter surajustementun problème courant lorsque l'on travaille avec des annotations précises au niveau du pixel.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant