Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Segmentação Semântica

Descubra o poder da classify semântica - classifique cada pixel nas imagens para uma compreensão precisa da cena. Explore aplicações e ferramentas agora!

A segmentação semântica é uma técnica fundamental na visão computacional (CV) que envolve a atribuição de uma classe específica a cada pixel individual de uma imagem. Ao contrário de tarefas mais simples que podem categorizar uma imagem inteira ou colocar uma caixa delimitadora à volta de um objeto, a segmentação semântica fornece um mapa perfeito da cena em termos de pixéis. Este Este nível granular de detalhe permite às máquinas compreender os limites e as formas exactas dos objectos, classificando classificando regiões distintas como "estrada", "pessoa", "céu" ou "tumor". Ao tratar uma imagem como uma coleção de pixels classificados e não apenas como uma soma de objectos, este método oferece uma compreensão do contexto visual, que é essencial para sistemas avançados de sistemas avançados de inteligência artificial (IA) avançados que interagem com ambientes complexos.

Mecânica central da classificação ao nível do pixel

O processo de segmentação semântica baseia-se fortemente em modelos de aprendizagem profunda (DL), nomeadamente arquitecturas baseadas em Redes Neuronais Convolucionais (CNN). Estes modelos são treinados em grandes conjuntos de dados anotados em que anotadores humanos especializados anotaram cada pixel. Durante o treino, a rede aprende a associar caraterísticas de baixo nível, como texturas e arestas a conceitos semânticos de alto nível.

Um padrão arquitetónico comum envolve uma estrutura de codificador-descodificador:

  • Codificador: Reduz a amostragem da imagem de entrada para capturar o contexto semântico e reduzir as dimensões espaciais.
  • Descodificador: Aumenta a amostragem das caraterísticas codificadas para a resolução da imagem original para gerar um mapa de previsão.

Arquitecturas pioneiras como as redes totalmente convolucionais (FCN) lançaram as bases, substituindo as camadas totalmente conectadas por camadas convolucionais para produzir mapas espaciais. Arquitecturas mais especializadas mais especializados, como a U-Net, utilizam conexões de salto para preservar para preservar os pormenores mais finos, o que as torna altamente eficazes para tarefas que exigem elevada precisão.

distinguir a segmentação semântica de tarefas relacionadas

Para selecionar a ferramenta certa para um projeto, é crucial distinguir a segmentação semântica de outras tarefas de visão computacional:

  • Deteção de objectos: Identifica objectos e localiza-os com caixas rectangulares. Responde a "onde está o objeto?" mas ignora a forma exacta do objeto.
  • Segmentação de instâncias: Semelhante à segmentação semântica, mas distingue entre instâncias individuais da mesma classe. Por exemplo, enquanto a segmentação semântica rotula todos os pixéis de "carro" com a mesma cor, a segmentação de instância atribui um ID único a "carro 1", "carro 2", etc.
  • Classificação de imagens: Atribui uma única etiqueta a toda a imagem (por exemplo, "cena de praia") sem identificar a localização de elementos específicos.

Aplicações no Mundo Real

A capacidade de analisar cenas ao nível do pixel impulsionou a inovação em vários sectores:

  • Veículos autónomos: Os veículos autónomos utilizam a segmentação semântica para identificar superfícies transitáveis (estradas), sinais de trânsito, peões e obstáculos. Conjuntos de dados como o Cityscapes são amplamente utilizados para treinar modelos para navegar em ambientes urbanos em segurança.
  • Análise de imagens médicas: Nos cuidados de saúde, a precisão é vital. Os modelos segment órgãos, lesões e tumores em exames de MRI ou CT ou TAC. Isto ajuda os radiologistas a quantificar o volume dos tecidos e a planear cirurgias.
  • Análise de imagens de satélite: A segmentação semântica ajuda na classificação da cobertura do solo, no acompanhamento da desflorestação e no planeamento urbano. Organizações como a NASA utilizam estas técnicas para monitorizar as alterações ambientais a uma escala global.
  • Agricultura de precisão: Os agricultores utilizam a segmentação para distinguir as culturas das ervas daninhas, permitindo uma aplicação direcionada de herbicidas que reduz a utilização de produtos químicos e os custos.

Implementação da segmentação semântica

Estruturas modernas como PyTorch e TensorFlow fornecem as ferramentas para construir modelos de segmentação. No entanto, as bibliotecas de alto nível simplificam significativamente o processo. O Ultralytics YOLO11 suportam tarefas de segmentação de imediato, oferecendo um equilíbrio de velocidade e precisão adequadas para inferência em tempo real.

O exemplo seguinte demonstra como carregar um modelo de segmentação YOLO11 pré-treinado e efetuar a inferência numa imagem usando o ultralytics pacote python .

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the segmentation mask results
results[0].show()

Para os programadores que pretendem criar soluções personalizadas, ferramentas de anotação como LabelMe ou CVAT são essenciais para preparar os dados de treino. Uma vez treinados, estes modelos podem ser implementados em dispositivos periféricos utilizando OpenCV ou formatos optimizados como o ONNX para um desempenho eficiente em ambientes de produção.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora