Descubra as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de caraterísticas.
As redes de cápsulas, frequentemente abreviadas como CapsNets, são um tipo de arquitetura de rede neural (NN) concebida para ultrapassar algumas das principais limitações das redes neurais convolucionais (CNN). Introduzidas por Geoffrey Hinton e a sua equipa, as CapsNets visam reconhecer melhor as relações hierárquicas entre as caraterísticas de uma imagem. Ao contrário dos neurónios de uma CNN normal, que produzem um único valor escalar, as "cápsulas" de uma CapsNet produzem um vetor, o que lhes permite codificar informações mais detalhadas sobre as propriedades de um objeto, como a sua pose (posição, tamanho, orientação), deformação e textura. Esta estrutura torna-as inerentemente mais robustas a alterações no ponto de vista e na orientação.
A principal inovação por trás das CapsNets é a sua capacidade de preservar as hierarquias espaciais entre as caraterísticas. Embora uma CNN possa reconhecer os componentes de um rosto - como a boca, o nariz e os olhos - não compreende explicitamente as suas relações espaciais. As CapsNets, no entanto, utilizam grupos de neurónios chamados cápsulas para identificar estas partes e as suas orientações relativas. Isto é conseguido através de um processo chamado "encaminhamento dinâmico", em que as cápsulas de nível inferior enviam os seus resultados para as cápsulas de nível superior que melhor podem explicar os seus resultados. Esta abordagem é fundamentalmente diferente das camadas de agrupamento nas CNN, que frequentemente descartam informações espaciais importantes. O conceito original foi detalhado no documento Dynamic Routing Between Capsules.
A principal distinção entre as CapsNets e as CNNs reside na forma como tratam a informação espacial e a abstração.
Enquanto modelos como o Ultralytics YOLO são altamente optimizados para velocidade e precisão em tarefas práticas de visão por computador (CV), as CapsNets representam uma filosofia arquitetónica alternativa centrada na melhoria da compreensão fundamental das cenas visuais. É possível explorar comparações entre diferentes modelos de deteção de objectos para compreender o panorama atual.
Embora as CapsNets continuem a ser sobretudo uma área de investigação ativa e sejam menos utilizadas do que os modelos estabelecidos, como o YOLO11, têm-se revelado promissoras em vários domínios:
Outras aplicações potenciais incluem a melhoria da deteção de objectos, particularmente em cenas desordenadas, a melhoria da compreensão da cena em robótica e a contribuição para sistemas de perceção mais robustos para veículos autónomos. Embora as exigências computacionais continuem a ser um desafio, a investigação em curso visa otimizar a eficiência da CapsNet para aplicações mais vastas de aprendizagem automática (ML) e potencial integração em estruturas como PyTorch ou TensorFlow.