Descubra o poder da classify semântica - classifique cada pixel nas imagens para uma compreensão precisa da cena. Explore aplicações e ferramentas agora!
A segmentação semântica é uma técnica fundamental na visão computacional (CV) que envolve a atribuição de uma classe específica a cada pixel individual de uma imagem. Ao contrário de tarefas mais simples que podem categorizar uma imagem inteira ou colocar uma caixa delimitadora à volta de um objeto, a segmentação semântica fornece um mapa perfeito da cena em termos de pixéis. Este Este nível granular de detalhe permite às máquinas compreender os limites e as formas exactas dos objectos, classificando classificando regiões distintas como "estrada", "pessoa", "céu" ou "tumor". Ao tratar uma imagem como uma coleção de pixels classificados e não apenas como uma soma de objectos, este método oferece uma compreensão do contexto visual, que é essencial para sistemas avançados de sistemas avançados de inteligência artificial (IA) avançados que interagem com ambientes complexos.
O processo de segmentação semântica baseia-se fortemente em modelos de aprendizagem profunda (DL), nomeadamente arquitecturas baseadas em Redes Neuronais Convolucionais (CNN). Estes modelos são treinados em grandes conjuntos de dados anotados em que anotadores humanos especializados anotaram cada pixel. Durante o treino, a rede aprende a associar caraterísticas de baixo nível, como texturas e arestas a conceitos semânticos de alto nível.
Um padrão arquitetónico comum envolve uma estrutura de codificador-descodificador:
Arquitecturas pioneiras como as redes totalmente convolucionais (FCN) lançaram as bases, substituindo as camadas totalmente conectadas por camadas convolucionais para produzir mapas espaciais. Arquitecturas mais especializadas mais especializados, como a U-Net, utilizam conexões de salto para preservar para preservar os pormenores mais finos, o que as torna altamente eficazes para tarefas que exigem elevada precisão.
Para selecionar a ferramenta certa para um projeto, é crucial distinguir a segmentação semântica de outras tarefas de visão computacional:
A capacidade de analisar cenas ao nível do pixel impulsionou a inovação em vários sectores:
Estruturas modernas como PyTorch e TensorFlow fornecem as ferramentas para construir modelos de segmentação. No entanto, as bibliotecas de alto nível simplificam significativamente o processo. O Ultralytics YOLO11 suportam tarefas de segmentação de imediato, oferecendo um equilíbrio de velocidade e precisão adequadas para inferência em tempo real.
O exemplo seguinte demonstra como carregar um modelo de segmentação YOLO11 pré-treinado e efetuar a inferência numa
imagem usando o ultralytics pacote python .
from ultralytics import YOLO
# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the segmentation mask results
results[0].show()
Para os programadores que pretendem criar soluções personalizadas, ferramentas de anotação como LabelMe ou CVAT são essenciais para preparar os dados de treino. Uma vez treinados, estes modelos podem ser implementados em dispositivos periféricos utilizando OpenCV ou formatos optimizados como o ONNX para um desempenho eficiente em ambientes de produção.