Descubra as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de recursos.
As redes de cápsulas (CapsNets) representam uma evolução sofisticada no domínio da aprendizagem profunda (DL) concebida para dar resposta a limitações específicas encontradas nas redes neurais convolucionais (CNNs) tradicionais. Introduzida pela primeira vez pelo renomado pesquisador Geoffrey Hinton e seus colegas, esta arquitetura organiza os neurónios em grupos conhecidos como "cápsulas". Ao contrário dos neurónios normais que emitem um único valor de ativação escalar, uma cápsula emite um vetor. Esta orientação e comprimento do vetor permitem à rede Esta orientação e comprimento do vetor permitem à rede codificar informações mais ricas sobre um objeto, como a sua posição, tamanho, orientação e textura precisas. Esta capacidade permite que o modelo compreenda melhor as relações hierárquicas entre as caraterísticas, essencialmente essencialmente, realizar "gráficos inversos" para desconstruir uma cena visual.
A caraterística definidora de uma CapsNet é a sua capacidade de preservar as relações espaciais entre diferentes partes de um objeto. Num fluxo de trabalho num fluxo de trabalho normal de visão computacional (CV) que utiliza CNNs, as camadas utilizam frequentemente operações de agrupamento para reduzir a dimensionalidade, o que normalmente descarta dados espaciais precisos para obter invariância. No entanto, as CapsNets visam a "equivariância", o que significa que se um objeto se mover ou rodar na imagem, a representação vetorial da cápsula muda proporcionalmente, em vez de se tornar irreconhecível.
Isto é conseguido através de um processo denominado "encaminhamento dinâmico" ou "encaminhamento por acordo". Em vez de em vez de simplesmente encaminhar sinais para todos os neurónios da camada seguinte, as cápsulas de nível inferior enviam as suas saídas para cápsulas de nível superior que de nível superior que "concordam" com a sua previsão. Por exemplo, uma cápsula que detecta um nariz sinalizará fortemente uma por exemplo, uma cápsula que detecte um nariz sinalizará fortemente uma cápsula de rosto se a orientação espacial se alinhar, reforçando a compreensão estrutural do processo de extração de caraterísticas. Este conceito foi famoso no trabalho de investigação sobre Encaminhamento dinâmico entre cápsulas.
Embora ambas as arquitecturas sejam fundamentais na aprendizagem automática (ML), elas divergem significativamente na forma como processam os dados visuais:
Embora as CapsNets sejam computacionalmente intensivas e menos adoptadas do que as arquitecturas optimizadas como YOLO11mostraram-se promissoras em domínios específicos de alto risco domínios específicos de alto risco:
Embora as CapsNets ofereçam vantagens teóricas, os padrões modernos da indústria geralmente favorecem modelos altamente otimizados baseados em CNN ou
Transformer altamente otimizados para aumentar a velocidade. No entanto, é possível fazer experiências com tarefas de classificação - a principal referência para
CapsNets-usando o ultralytics biblioteca. O exemplo seguinte demonstra o treino de um modelo de classificação YOLO11
no conjunto de dados MNIST , um campo de jogos comum para testar o reconhecimento de caraterísticas hierárquicas.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
A investigação sobre as redes de cápsulas continua a influenciar o desenvolvimento da segurança e interpretabilidade da IA. Ao modelar explicitamente explicitamente as relações parte-todo, oferecem um caminho para uma IA mais explicável em comparação com a natureza de "caixa negra" de algumas redes profundas. Os avanços futuros podem centrar-se na integração destes conceitos em deteção de objectos 3D e na redução do custo computacional dos algoritmos de encaminhamento, fundindo potencialmente a eficiência de modelos como o YOLO26 com a compreensão espacial robusta das cápsulas.