Um guia sobre a arquitetura U-Net e as suas aplicações

Abirami Vina

5 min. de leitura

15 de julho de 2025

Saiba mais sobre a arquitetura U-Net, como suporta a segmentação de imagens, as suas aplicações e porque é importante na evolução da visão por computador.

A visão por computador é um ramo da inteligência artificial (IA) que se centra na análise de dados visuais. Abriu caminho a muitos sistemas de ponta, como a automatização do processo de inspeção de produtos em fábricas e a ajuda a veículos autónomos na navegação em estradas. 

Uma das tarefas de visão computacional mais conhecidas é a deteção de objectos. Esta tarefa permite que os modelos localizem e identifiquem objectos numa imagem utilizando caixas delimitadoras. Embora as caixas delimitadoras sejam úteis para várias aplicações, apenas fornecem uma estimativa aproximada da localização de um objeto.

No entanto, em áreas como os cuidados de saúde, onde a precisão é crucial, os casos de utilização da IA de visão dependem de mais do que apenas identificar um objeto. Muitas vezes, requerem também informações relacionadas com a forma e a posição exactas dos objectos.

É exatamente isso que a tarefa de visão por computador, a segmentação, foi concebida para fazer. Em vez de utilizar caixas delimitadoras, os modelos de segmentação detectam objectos ao nível do pixel. Ao longo dos anos, os investigadores desenvolveram modelos especializados de visão por computador para segmentação.

Um desses modelos é a U-Net. Embora modelos mais novos e mais avançados tenham superado seu desempenho, a U-Net ocupa um lugar significativo na história da visão computacional. Neste artigo, analisaremos mais de perto a arquitetura da U-Net, como ela funciona, onde foi usada e como se compara aos modelos de segmentação mais modernos disponíveis atualmente.

Fig. 1. Um exemplo de segmentação utilizando o modelo de aprendizagem profunda U-Net.(Fonte)

A história da segmentação de imagens

Antes de nos debruçarmos sobre o que é a U-Net, vamos primeiro ter uma ideia melhor de como os modelos de segmentação de imagens evoluíram.

Inicialmente, a visão por computador baseava-se em técnicas tradicionais como a deteção de limites, a limiarização ou o crescimento de regiões para separar objectos numa imagem. Estas técnicas eram utilizadas para detetar limites de objectos utilizando arestas, separar regiões por intensidade de pixel e agrupar pixéis semelhantes. Funcionavam para casos simples, mas falhavam frequentemente quando as imagens tinham ruído, formas sobrepostas ou limites pouco claros.

Após o surgimento da aprendizagem profunda em 2012, os investigadores introduziram o conceito de redes totalmente convolucionais (FCN) em 2014 para tarefas como a segmentação semântica. Estes modelos substituíram certas partes de uma rede convolucional para permitir que o computador analisasse uma imagem inteira de uma só vez, em vez de a dividir em partes mais pequenas. Isto tornou possível ao modelo criar mapas detalhados que mostram mais claramente o que está numa imagem.

Figura 2. A evolução dos algoritmos de segmentação baseados na aprendizagem profunda.(Fonte)

Com base nas FCNs, a U-Net foi introduzida por investigadores da Universidade de Freiburg em 2015. Foi originalmente concebida para a segmentação de imagens biomédicas. Em particular, a U-Net foi concebida para ter um bom desempenho em situações em que os dados anotados são limitados. 

Entretanto, versões posteriores como a UNet++ e a TransUNet adicionaram actualizações como camadas de atenção e melhor extração de caraterísticas. As camadas de atenção ajudam o modelo a concentrar-se em regiões-chave, enquanto a extração de caraterísticas melhorada capta informações mais detalhadas.

O que é a U-Net e como é que as caraterísticas fluem através do modelo?

O U-Net é um modelo de aprendizagem profunda criado especificamente para a segmentação de imagens. Recebe uma imagem como entrada e produz uma máscara de segmentação que classifica cada pixel de acordo com o objeto ou região a que pertence.

O modelo deve o seu nome à sua arquitetura em forma de U. É composto por duas partes principais: um codificador que comprime a imagem e aprende as suas caraterísticas, e um descodificador que a expande de volta ao tamanho original. Esta conceção cria uma forma de U simétrica, que ajuda o modelo a compreender tanto a estrutura geral de uma imagem como os seus pormenores mais finos.

Uma caraterística crucial da U-Net é a utilização de ligações de salto, que permitem que a informação do codificador seja passada diretamente para o descodificador. Isto significa que o modelo pode preservar pormenores importantes que podem ser perdidos quando a imagem é comprimida. 

Uma visão geral da arquitetura da U-Net

Aqui está um vislumbre de como funciona a arquitetura da U-Net:

  • Imagem de entrada: A U-Net começa com uma imagem 2D, como um exame médico ou uma fotografia de satélite. O objetivo é atribuir uma etiqueta de classe a cada pixel da imagem.

  • Reduzir a amostragem: A imagem passa por camadas convolucionais que aprendem caraterísticas visuais importantes. À medida que a imagem passa por diferentes camadas, a sua resolução diminui e o modelo identifica padrões mais alargados.

  • Camada de estrangulamento: No centro da rede, os mapas de caraterísticas atingem a sua resolução espacial mais pequena, ao mesmo tempo que captam caraterísticas semânticas de alto nível. Em termos simples, esta representação comprimida dos mapas de caraterísticas é o contexto geral da entrada.

  • Amostragem: A rede reconstrói então a imagem aumentando gradualmente a resolução. As convoluções transpostas ajudam a expandir os mapas de caraterísticas de volta ao tamanho original.

  • Saltar ligações: Os mapas de caraterísticas da trajetória de redução da amostragem são concatenados com os da trajetória de aumento da amostragem. Isto ajuda a preservar os pormenores espaciais de grão fino, integrando simultaneamente informações contextuais de alto nível.
  • A saída é um mapa de segmentação: O resultado final é uma máscara de segmentação por pixéis que corresponde ao tamanho da entrada. Cada pixel é classificado numa categoria como objeto, fundo ou região de interesse.
Fig. 3. Diagrama da arquitetura da U-Net.(Fonte)

Compreender a diferença entre ViT e U-Net

À medida que explora a U-Net, pode estar a perguntar-se como é que ela difere de outros modelos de aprendizagem profunda, como o Vision Transformer (ViT), que também pode executar tarefas de segmentação. Embora ambos os modelos possam executar tarefas semelhantes, eles diferem em termos de como são construídos e como lidam com a segmentação.

A U-Net funciona processando imagens ao nível do pixel através de camadas convolucionais numa estrutura de codificador-descodificador. É frequentemente utilizada para tarefas que requerem uma segmentação precisa, como exames médicos ou cenas de carros autónomos. 

Por outro lado, o Vision Transformer (ViT) divide as imagens em fragmentos e processa-os simultaneamente através de mecanismos de atenção. Utiliza a auto-atenção (um mecanismo que permite ao modelo pesar a importância das diferentes partes da imagem relativamente umas às outras) para captar a forma como as diferentes partes da imagem se relacionam entre si, ao contrário da abordagem convolucional da U-Net.

Outra diferença importante é que o ViT geralmente precisa de mais dados para funcionar bem, mas é ótimo a detetar padrões complexos. A U-Net, por outro lado, tem um bom desempenho com conjuntos de dados mais pequenos e é mais rápida a treinar e, muitas vezes, requer menos tempo de treino.

Aplicações do modelo U-Net

Agora que compreendemos melhor o que é a U-Net e como funciona, vamos explorar a forma como a U-Net tem sido aplicada em diferentes domínios.

Segmentação de hemorragias cerebrais em imagiologia médica

A U-Net tornou-se um método fiável para a segmentação ao nível do pixel de imagens médicas complexas, particularmente durante o seu auge na investigação. Foi utilizada por investigadores para realçar áreas-chave em exames médicos, como tumores e sinais de hemorragia interna em imagens de TAC e RMN. Esta abordagem aumentou significativamente a precisão dos diagnósticos e simplificou a análise de dados médicos complexos em ambientes de investigação.

Um exemplo do impacto da U-Net na investigação na área da saúde é a sua utilização na identificação de acidentes vasculares cerebrais e hemorragias cerebrais em exames médicos. Os investigadores podem utilizar a U-Net para analisar exames à cabeça e destacar áreas de preocupação, permitindo uma identificação mais rápida dos casos que requerem atenção imediata.

Fig. 4. Segmentação de lesões de AVC hemorrágico utilizando 3D U-Net.(Fonte)

Segmentação das culturas na agricultura

Outra área em que os investigadores utilizaram a U-Net foi na agricultura, particularmente para segmentar culturas, ervas daninhas e solo. Ajuda os agricultores a monitorizar a saúde das plantas, a estimar os rendimentos e a tomar melhores decisões em grandes explorações agrícolas. Por exemplo, a U-Net pode separar as culturas das ervas daninhas, tornando a aplicação de herbicidas mais eficiente e reduzindo o desperdício.

Para enfrentar desafios como a desfocagem por movimento em imagens de drones, os investigadores melhoraram a U-Net com técnicas de desfocagem de imagens. Isto garante uma segmentação mais clara, mesmo quando os dados são recolhidos em movimento, como durante levantamentos aéreos.

Fig. 5. Separação de culturas de ervas daninhas em campos agrícolas com U-Net.(Fonte)

Condução autónoma

Antes da introdução de modelos de IA mais avançados, a U-Net desempenhou um papel vital na exploração da forma como a segmentação poderia melhorar a condução autónoma. Nos veículos autónomos, a segmentação semântica da U-Net pode ser utilizada para classificar cada pixel de uma imagem em categorias como estrada, veículo, peão e marcas de faixa de rodagem. Isto proporciona ao carro uma visão clara do que o rodeia, ajudando a uma navegação segura e a uma tomada de decisões eficaz.

Fig. 6. Cena de uma estrada em que a área transitável é segmentada utilizando U-Net.(Fonte)

Prós e contras da U-Net

Ainda hoje, a U-Net continua a ser uma boa escolha para a segmentação de imagens entre os investigadores devido ao seu equilíbrio entre simplicidade, precisão e adaptabilidade. Aqui estão algumas das principais vantagens que a destacam:

  • Adaptável a diferentes modalidades: A U-Net foi adaptada a diferentes tipos de dados, incluindo digitalizações médicas em 3D, imagens de satélite e até fotogramas de vídeo.

  • Inferência rápida quando optimizada: Quando devidamente ajustada, a U-Net pode ser executada de forma eficiente, tornando-a adequada para aplicações em tempo real ou quase real.

  • Código aberto e comunidade: A U-Net está disponível nas principais bibliotecas de aprendizagem profunda e é apoiada por uma grande comunidade de programadores e investigadores.

Embora a U-Net tenha muitos pontos fortes, há também algumas limitações a ter em conta. Eis alguns factores a considerar: 

  • Sensível à qualidade dos dados: O desempenho da U-Net pode ser afetado negativamente por dados de má qualidade, como imagens ruidosas ou de baixa resolução.

  • Propenso a sobreajuste com conjuntos de dados pequenos: Embora a U-Net tenha um bom desempenho com dados limitados, corre o risco de se ajustar excessivamente se não for corretamente regularizada, especialmente quando o conjunto de dados é demasiado pequeno ou não tem diversidade.

  • Recursos computacionais: A U-Net pode ser computacionalmente dispendiosa, especialmente quando se trabalha com grandes conjuntos de dados, exigindo recursos de hardware significativos para a formação.

Principais conclusões

A U-Net foi um marco importante na evolução da segmentação de imagens. Provou que os modelos de aprendizagem profunda podem fornecer resultados precisos utilizando conjuntos de dados mais pequenos, especialmente em áreas como a imagiologia médica. 

Este avanço abriu caminho para aplicações mais avançadas em vários domínios. À medida que a visão computacional continua a evoluir, os modelos de segmentação como a U-Net continuam a ser fundamentais para permitir que as máquinas compreendam e interpretem dados visuais com elevada precisão.

Pretende criar os seus próprios projectos de visão computacional? Explore o nosso repositório GitHub para mergulhar mais fundo na IA e verifique as nossas opções de licenciamento. Saiba como a visão computacional nos cuidados de saúde está a melhorar a eficiência e explore o impacto da IA no retalho visitando as nossas páginas de soluções! Junte-se agora à nossa crescente comunidade!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência