Explore a segmentação de imagens na visão computacional. Saiba como Ultralytics fornece máscaras precisas ao nível do pixel para segmentação de instâncias, semântica e panóptica.
A segmentação de imagens é uma técnica sofisticada em visão computacional (CV) que envolve a divisão de uma imagem digital em vários subgrupos de pixels, frequentemente referidos como segmentos ou regiões de imagem. Ao contrário da classificação padrão de imagens, que atribui um único rótulo a uma imagem inteira, a segmentação analisa os dados visuais em um nível muito mais granular, atribuindo um rótulo de classe específico a cada pixel individual. Esse processo cria um mapa preciso no nível do pixel, permitindo que os modelos de inteligência artificial (IA) compreendam não apenas quais objetos estão presentes, mas exatamente onde eles estão localizados e quais são seus limites específicos .
Para alcançar essa compreensão de alta fidelidade, os modelos de segmentação normalmente utilizam arquiteturas de aprendizagem profunda (DL), particularmente Redes Neurais Convolucionais (CNNs). Essas redes atuam como poderosos extratores de características, identificando padrões como bordas, texturas e formas complexas . Arquiteturas de segmentação tradicionais, como a clássica U-Net, costumam empregar uma estrutura codificador-decodificador. O codificador comprime a imagem de entrada para capturar o contexto semântico, enquanto o decodificador reconstrói os detalhes espaciais para produzir uma máscara de segmentação final.
Os avanços modernos levaram a arquiteturas em tempo real como o YOLO26, lançado em janeiro de 2026. Esses modelos integram recursos de segmentação diretamente em um pipeline de ponta a ponta, permitindo o processamento em alta velocidade em vários hardwares, desde GPUs na nuvem até dispositivos de ponta .
Dependendo do objetivo específico de um projeto, os desenvolvedores geralmente escolhem entre três técnicas principais de segmentação:
É fundamental diferenciar a segmentação da detecção de objetos. Enquanto os algoritmos de detecção localizam itens usando uma caixa delimitadora retangular, eles inevitavelmente incluem pixels de fundo dentro dessa caixa. A segmentação fornece uma representação mais precisa e rigorosa, traçando o contorno ou polígono exato do objeto. Essa diferença é vital para aplicações como a preensão robótica, em que um braço robótico precisa conhecer a geometria precisa de um item para manipulá-lo sem colisão.
A precisão oferecida pela segmentação de imagens impulsiona a inovação em diversos setores:
Os programadores podem implementar a segmentação de instâncias de forma eficiente utilizando o ultralytics Python . O
exemplo a seguir usa o estado da arte Modelo YOLO26,
que é otimizado tanto para velocidade como para precisão.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Para alcançar alto desempenho em tarefas personalizadas, as equipas muitas vezes precisam selecionar dados de treino de alta qualidade. Ultralytics simplifica esse processo, fornecendo ferramentas para anotar imagens com máscaras poligonais, gerenciar conjuntos de dados e treinar modelos na nuvem, otimizando todo o ciclo de vida das operações de aprendizado de máquina (MLOps). Bibliotecas como OpenCV também são frequentemente utilizadas juntamente com esses modelos para pré-processar imagens e pós-processar as máscaras resultantes.