Découvrez la puissance de la segmentation d'images avec Ultralytics YOLO. Explorez la précision au niveau du pixel, les types, les applications et les cas d'utilisation de l'IA dans le monde réel.
La segmentation d'images est une technique de base en vision par ordinateur (VA) qui consiste à diviser une image numérique en plusieurs sous-groupes de pixels, communément appelés segments d'image. L'objectif premier est de L'objectif premier est de simplifier la représentation d'une image en quelque chose de plus significatif et de plus facile à analyser. Contrairement à la détection d'objets, qui localise les objets à l'intérieur d'une dans une boîte rectangulaire, la segmentation d'image fournit une carte précise, au niveau des pixels, de la forme d'un objet. Ce processus attribue une étiquette à chaque pixel d'une image, ce qui permet aux modèles d'intelligence artificielle (IA) d'identifier les objets les plus significatifs et les plus faciles à analyser. aux modèles d'intelligence artificielle (IA) de de comprendre les limites et les contours exacts des entités au sein d'une scène.
Dans de nombreux flux de travail modernes d'apprentissage machine (ML), il ne suffit pas de connaître l'emplacement approximatif d'un objet, la connaissance de l'emplacement approximatif d'un objet est insuffisante. Les applications nécessitant une interaction avec le monde physique physique, comme un robot saisissant un paquet ou une voiture naviguant sur une route sinueuse, exigent une compréhension granulaire de la géométrie. géométrie. La segmentation d'images comble cette lacune en convertissant les données visuelles brutes en un ensemble de régions classées. Cette capacité Cette capacité est alimentée par des architectures d'apprentissage profond (DL), en particulier les réseaux neuronaux Les réseaux neuronaux convolutifs (CNN), qui extraient des caractéristiques spatiales pour différencier les objets de premier plan de l'arrière-plan.
Il est essentiel de comprendre la tâche de segmentation spécifique pour sélectionner l'architecture de modèle appropriée. Les trois catégories catégories sont les suivantes :
La capacité à délimiter des frontières précises rend la segmentation indispensable dans de nombreux secteurs d'activité :
Les cadres modernes ont simplifié la mise en œuvre des tâches de segmentation. Alors que les anciens détecteurs en deux étapes comme R-CNN du masque étaient précis mais lents, les modèles en une seule étape ont ont révolutionné le domaine en offrant une l 'inférence en temps réel. Les modèles à une étape ont révolutionné le domaine en offrant une inférence en temps réel. Ultralytics YOLO11 par exemple, prend en charge la segmentation des instances de manière native. L'avenir, YOLO26 est en cours de développement afin d'optimiser ces capacités avec un traitement de bout en bout. capacités avec un traitement de bout en bout.
Les développeurs peuvent utiliser des bibliothèques standard comme OpenCV pour le prétraitement et la visualisation, tout en utilisant PyTorch pour l'inférence des modèles. l'inférence du modèle.
Voici un exemple concis de segmentation d'instances à l'aide d'un modèle YOLO11 pré-entraîné en Python:
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image (can be a local path or URL)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks overlaid
results[0].show()
Cet extrait de code gère automatiquement les tâches complexes d'extraction des caractéristiques, de régression de la boîte englobante et de génération de masques, ce qui permet aux développeurs de se concentrer sur l'intégration de l'outil dans le système. permettant aux développeurs de se concentrer sur l'intégration des résultats de la segmentation dans leurs applications plus vastes.