Glossário

Redes de Cápsulas (CapsNet)

Descobre as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de caraterísticas.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As redes de cápsulas, frequentemente abreviadas como CapsNets, representam um tipo inovador de arquitetura de rede neural (NN) concebida como alternativa às redes neurais convolucionais (CNN) tradicionais. Introduzidas pela primeira vez pelo investigador de IA Geoffrey Hinton e a sua equipa, as CapsNets pretendem resolver as limitações fundamentais da forma como as CNNs processam as hierarquias espaciais e as relações entre as caraterísticas de uma imagem. Embora as CNNs sejam excelentes na extração de caraterísticas, a sua utilização de camadas de agrupamento pode levar a uma perda de informação espacial precisa. As CapsNets propõem uma abordagem diferente, utilizando "cápsulas" - grupos de neurónios que produzem vectores em vez de valores escalares únicos. Estes vectores codificam informações mais ricas sobre as caraterísticas detectadas, incluindo propriedades como a pose (posição, orientação, escala) e a probabilidade da presença da caraterística. Esta estrutura permite que as CapsNets modelem melhor as relações parte-todo e mantenham a consciência espacial, levando a uma robustez potencialmente melhorada contra mudanças de ponto de vista em tarefas de visão computacional (CV).

Conceitos fundamentais

O elemento central de uma CapsNet é a "cápsula". Ao contrário dos neurónios normais, cada cápsula detecta uma entidade específica dentro de uma região da entrada e produz um vetor. A magnitude do vetor (comprimento) indica a probabilidade de que a entidade detectada exista, enquanto sua orientação representa os parâmetros de instanciação da entidade, como sua pose precisa ou detalhes de textura. Esta saída baseada em vetor contrasta fortemente com a ativação escalar típica em muitos outros modelos de aprendizagem profunda (DL).

As cápsulas das camadas inferiores geram previsões para os resultados das cápsulas das camadas superiores utilizando matrizes de transformação. Um mecanismo crucial conhecido como "encaminhamento por acordo" determina dinamicamente as ligações entre estas camadas. Se as previsões de várias cápsulas de nível inferior se alinharem (concordarem) em relação à presença e à pose de uma caraterística de nível superior, a cápsula de nível superior correspondente torna-se ativa. Este processo de encaminhamento dinâmico permite que a rede reconheça as partes e compreenda como estas se juntam num todo, preservando eficazmente as hierarquias espaciais. As ideias fundamentais são detalhadas no documento"Dynamic Routing Between Capsules". Esta abordagem ajuda em tarefas que requerem uma compreensão diferenciada da composição de objectos, melhorando potencialmente o desempenho com menor necessidade de aumento extensivo de dados.

Principais diferenças em relação às Redes Neuronais Convolucionais (CNNs)

As CapsNets oferecem um paradigma diferente em comparação com as CNNs amplamente utilizadas, particularmente no tratamento de dados espaciais e na representação de caraterísticas:

  • Tratamento da hierarquia espacial: As CNNs geralmente perdem informações espaciais por meio de camadas de agrupamento, que resumem a presença de caraterísticas em regiões. As CapsNets são projetadas para preservar explicitamente as relações hierárquicas de pose entre as caraterísticas, tornando-as inerentemente melhores na compreensão da estrutura dos objetos.
  • Representação de caraterísticas: As CNNs utilizam normalmente activações escalares para representar a presença de uma caraterística. As CapsNets utilizam saídas vectoriais (cápsulas) que codificam tanto a presença como as propriedades (como a pose e a deformação) de uma caraterística.
  • Equivariância de pontos de vista: As CapsNets têm como objetivo a equivariância, o que significa que a representação muda de forma previsível com as mudanças de ponto de vista, enquanto as CNNs requerem frequentemente grandes quantidades de dados de treino para aprender a invariância do ponto de vista.
  • Mecanismo de encaminhamento: As CNNs utilizam o pooling máximo ou outros métodos de pooling estático. As CapsNets utilizam o encaminhamento dinâmico por acordo, que pondera as ligações com base na consistência das previsões entre as camadas de cápsulas.

Vantagens das redes de cápsulas

As CapsNets apresentam várias vantagens potenciais em relação às arquitecturas de redes neuronais convencionais:

  • Melhora a robustez dos pontos de vista: A sua estrutura permite-lhes generalizar melhor para novos pontos de vista sem necessidade de ver esses pontos de vista específicos durante o treino.
  • Melhor modelagem da relação parte-todo: O mecanismo de roteamento ajuda o CapsNets a entender como as partes se combinam para formar objetos, o que é crucial para tarefas complexas de reconhecimento de imagens.
  • Eficiência de dados: Podem atingir uma elevada precisão com conjuntos de dados mais pequenos em comparação com as CNN, em especial para tarefas sensíveis a relações espaciais.
  • Segmentação de objectos sobrepostos: A capacidade de representar várias entidades e as suas poses dentro de uma região pode ajudar em tarefas como a segmentação de instâncias em que os objectos se sobrepõem significativamente. A gestão da formação e da implementação pode ser efectuada utilizando plataformas como o Ultralytics HUB.

Aplicações no mundo real

Embora as CapsNets continuem a ser principalmente uma área de investigação ativa e sejam menos utilizadas do que modelos estabelecidos como Ultralytics YOLO ou YOLO11demonstraram ser promissores em vários domínios:

  1. Reconhecimento de caracteres: As CapsNets obtiveram os melhores resultados no conjunto de dados MNIST de dígitos manuscritos, demonstrando a sua capacidade de lidar eficazmente com variações de orientação e estilo, ultrapassando as abordagens tradicionais de classificação de imagens em alguns parâmetros de referência.
  2. Análise de imagens médicas: A sua capacidade de compreender configurações espaciais torna-as adequadas para analisar exames médicos. Por exemplo, a investigação tem explorado a utilização de CapsNets em tarefas como a segmentação de tumores cerebrais, em que é fundamental identificar a forma e a localização exactas das anomalias. Isto insere-se no domínio mais vasto da análise de imagens médicas.

Outras aplicações potenciais incluem a melhoria da deteção de objectos, particularmente em cenas desordenadas, a melhoria da compreensão da cena em robótica e a contribuição para sistemas de perceção mais robustos para veículos autónomos. Embora as exigências computacionais continuem a ser um desafio, a investigação em curso visa otimizar a eficiência da CapsNet para aplicações mais vastas de aprendizagem automática (ML) e potencial integração em estruturas como PyTorch ou TensorFlow. Podes explorar comparações entre diferentes modelos de deteção de objectos para compreender onde as CapsNets podem encaixar no cenário futuro.

Lê tudo