Explore as Capsule Networks (CapsNets) e como elas resolvem as limitações das CNNs. Aprenda sobre roteamento dinâmico, hierarquias espaciais e compare as CapsNets com o YOLO26.
As redes de cápsulas, frequentemente abreviadas como CapsNets, representam uma arquitetura avançada no campo do aprendizado profundo projetada para superar limitações específicas encontradas nas redes neurais tradicionais. Introduzidas por Geoffrey Hinton e sua equipe, as CapsNets tentam imitar a organização neural biológica do cérebro humano mais de perto do que os modelos padrão . Ao contrário de uma rede neural convolucional (CNN) típica, que se destaca na deteção de características, mas muitas vezes perde relações espaciais devido à redução da resolução, uma rede de cápsulas organiza os neurónios em grupos chamados «cápsulas». Essas cápsulas codificam não apenas a probabilidade da presença de um objeto, mas também as suas propriedades específicas, como orientação, tamanho e textura, preservando efetivamente as relações espaciais hierárquicas dentro dos dados visuais.
Para compreender a inovação do CapsNets, é útil observar como os modelos padrão de visão computacional operam. Uma CNN convencional usa camadas de extração de características seguidas por camadas deagrupamento — especificamente agrupamento máximo— para reduzir a carga computacional e alcançar a invariância translacional. Isso significa que uma CNN pode identificar um «gato» independentemente de onde ele esteja na imagem.
No entanto, esse processo muitas vezes descarta dados de localização precisos, levando ao "problema Picasso": uma CNN pode classify rosto corretamente mesmo que a boca esteja na testa, simplesmente porque todas as características necessárias estão presentes. As CapsNets resolvem isso removendo as camadas de pooling e substituindo-as por um processo que respeita as hierarquias espaciais dos objetos.
O elemento central dessa arquitetura é a cápsula, um conjunto aninhado de neurónios que gera um vetor em vez de um valor escalar. Na matemática vetorial, um vetor tem magnitude e direção. Em uma CapsNet:
As cápsulas nas camadas inferiores (que detectam formas simples, como bordas) prevêem a saída das cápsulas nas camadas superiores (que detectam objetos complexos, como olhos ou pneus). Essa comunicação é gerenciada por um algoritmo chamado "roteamento dinâmico" ou "roteamento por acordo". Se a previsão de uma cápsula de nível inferior se alinhar com o estado da cápsula de nível superior, a conexão entre elas é reforçada. Isso permite que a rede reconheça objetos de diferentes pontos de vista 3D sem exigir o aumento massivo de dados normalmente necessário para ensinar as CNNs sobre rotação e escala.
Embora ambas as arquiteturas sejam fundamentais para a visão computacional (CV), elas diferem na forma como processam e representam os dados visuais:
Embora as CapsNets sejam frequentemente mais dispendiosas em termos computacionais do que modelos otimizados como o YOLO26, elas oferecem vantagens distintas em domínios especializados :
As Capsule Networks são principalmente uma arquitetura de classificação. Embora ofereçam robustez teórica, as aplicações industriais modernas geralmente favorecem CNNs ou Transformers de alta velocidade para desempenho em tempo real. No entanto, é útil compreender os benchmarks de classificação usados para CapsNets, como MNIST.
O exemplo a seguir demonstra como treinar um modelo moderno.
Modelo YOLO no conjunto MNIST usando o
ultralytics pacote. Isso é semelhante à tarefa de referência principal usada para validar as redes de cápsulas.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Os princípios por trás das redes de cápsulas continuam a influenciar a pesquisa sobre segurança e interpretabilidade da IA. Ao modelar explicitamente as relações entre partes e o todo, as cápsulas oferecem uma alternativa de "caixa de vidro" à natureza de "caixa preta" das redes neurais profundas, tornando as decisões mais explicáveis. Os desenvolvimentos futuros buscam combinar a robustez espacial das cápsulas com a velocidade de inferência de arquiteturas como YOLO11 ou a mais recente YOLO26 para melhorar o desempenho na detecção de objetos 3D e robótica. Os investigadores também estão a explorar as Matrix Capsules com EM Routing para reduzir ainda mais o custo computacional do algoritmo de concordância.
Para desenvolvedores que desejam gerenciar conjuntos de dados e treinar modelos com eficiência, a Ultralytics oferece um ambiente unificado para anotar dados, treinar na nuvem e implementar modelos que equilibram a velocidade das CNNs com a precisão necessária para tarefas complexas de visão .