Glossário

Redes de Cápsulas (CapsNet)

Descubra as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de caraterísticas.

As redes de cápsulas, frequentemente abreviadas como CapsNets, são um tipo de arquitetura de rede neural (NN) concebida para ultrapassar algumas das principais limitações das redes neurais convolucionais (CNN). Introduzidas por Geoffrey Hinton e a sua equipa, as CapsNets visam reconhecer melhor as relações hierárquicas entre as caraterísticas de uma imagem. Ao contrário dos neurónios de uma CNN normal, que produzem um único valor escalar, as "cápsulas" de uma CapsNet produzem um vetor, o que lhes permite codificar informações mais detalhadas sobre as propriedades de um objeto, como a sua pose (posição, tamanho, orientação), deformação e textura. Esta estrutura torna-as inerentemente mais robustas a alterações no ponto de vista e na orientação.

Como é que as redes de cápsulas funcionam?

A principal inovação por trás das CapsNets é a sua capacidade de preservar as hierarquias espaciais entre as caraterísticas. Embora uma CNN possa reconhecer os componentes de um rosto - como a boca, o nariz e os olhos - não compreende explicitamente as suas relações espaciais. As CapsNets, no entanto, utilizam grupos de neurónios chamados cápsulas para identificar estas partes e as suas orientações relativas. Isto é conseguido através de um processo chamado "encaminhamento dinâmico", em que as cápsulas de nível inferior enviam os seus resultados para as cápsulas de nível superior que melhor podem explicar os seus resultados. Esta abordagem é fundamentalmente diferente das camadas de agrupamento nas CNN, que frequentemente descartam informações espaciais importantes. O conceito original foi detalhado no documento Dynamic Routing Between Capsules.

CapsNets vs. Redes Neurais Convolucionais

A principal distinção entre as CapsNets e as CNNs reside na forma como tratam a informação espacial e a abstração.

  • Invariância espacial: As CNNs alcançam a invariância espacial através do agrupamento de camadas, o que pode levar a uma perda de dados de localização precisos. As CapsNets, por outro lado, são concebidas para serem "equivariantes", o que significa que podem compreender e preservar a informação de pose de um objeto à medida que este se desloca através da imagem.
  • Eficiência de dados: Devido à sua estrutura interna sofisticada, as CapsNets podem muitas vezes alcançar uma elevada precisão com significativamente menos dados de formação em comparação com os modelos de aprendizagem profunda (DL) que consomem muitos dados.
  • Representação hierárquica: As CapsNets constroem uma árvore de análise explícita de entidades visuais, o que lhes permite compreender o todo como uma composição das suas partes. Esta é uma forma mais intuitiva de realizar tarefas como a deteção de objectos do que a oferecida pelas CNNs normais.

Enquanto modelos como o Ultralytics YOLO são altamente optimizados para velocidade e precisão em tarefas práticas de visão por computador (CV), as CapsNets representam uma filosofia arquitetónica alternativa centrada na melhoria da compreensão fundamental das cenas visuais. É possível explorar comparações entre diferentes modelos de deteção de objectos para compreender o panorama atual.

Aplicações no mundo real

Embora as CapsNets continuem a ser sobretudo uma área de investigação ativa e sejam menos utilizadas do que os modelos estabelecidos, como o YOLO11, têm-se revelado promissoras em vários domínios:

  1. Reconhecimento de caracteres: As CapsNets obtiveram resultados de ponta no conjunto de dados MNIST de dígitos manuscritos, demonstrando a sua capacidade de lidar eficazmente com variações de orientação e estilo, ultrapassando as abordagens tradicionais de classificação de imagens em alguns parâmetros de referência.
  2. Análise de imagens médicas: A sua capacidade de compreender configurações espaciais torna-as adequadas para analisar exames médicos. Por exemplo, a investigação explorou a utilização de CapsNets em tarefas como a segmentação de tumores cerebrais, em que é fundamental identificar a forma e a localização exactas das anomalias. Isto insere-se no domínio mais vasto da análise de imagens médicas.

Outras aplicações potenciais incluem a melhoria da deteção de objectos, particularmente em cenas desordenadas, a melhoria da compreensão da cena em robótica e a contribuição para sistemas de perceção mais robustos para veículos autónomos. Embora as exigências computacionais continuem a ser um desafio, a investigação em curso visa otimizar a eficiência da CapsNet para aplicações mais vastas de aprendizagem automática (ML) e potencial integração em estruturas como PyTorch ou TensorFlow.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência