Glossário

Redes de Cápsulas (CapsNet)

Explore as Capsule Networks (CapsNets) e como elas resolvem as limitações das CNNs. Aprenda sobre roteamento dinâmico, hierarquias espaciais e compare as CapsNets com o YOLO26.

As redes de cápsulas, frequentemente abreviadas como CapsNets, representam uma arquitetura avançada no campo do aprendizado profundo projetada para superar limitações específicas encontradas nas redes neurais tradicionais. Introduzidas por Geoffrey Hinton e sua equipe, as CapsNets tentam imitar a organização neural biológica do cérebro humano mais de perto do que os modelos padrão . Ao contrário de uma rede neural convolucional (CNN) típica, que se destaca na deteção de características, mas muitas vezes perde relações espaciais devido à redução da resolução, uma rede de cápsulas organiza os neurónios em grupos chamados «cápsulas». Essas cápsulas codificam não apenas a probabilidade da presença de um objeto, mas também as suas propriedades específicas, como orientação, tamanho e textura, preservando efetivamente as relações espaciais hierárquicas dentro dos dados visuais.

A limitação das CNNs tradicionais

Para compreender a inovação do CapsNets, é útil observar como os modelos padrão de visão computacional operam. Uma CNN convencional usa camadas de extração de características seguidas por camadas deagrupamento — especificamente agrupamento máximo— para reduzir a carga computacional e alcançar a invariância translacional. Isso significa que uma CNN pode identificar um «gato» independentemente de onde ele esteja na imagem.

No entanto, esse processo muitas vezes descarta dados de localização precisos, levando ao "problema Picasso": uma CNN pode classify rosto corretamente mesmo que a boca esteja na testa, simplesmente porque todas as características necessárias estão presentes. As CapsNets resolvem isso removendo as camadas de pooling e substituindo-as por um processo que respeita as hierarquias espaciais dos objetos.

Como funcionam as redes cápsula

O elemento central dessa arquitetura é a cápsula, um conjunto aninhado de neurónios que gera um vetor em vez de um valor escalar. Na matemática vetorial, um vetor tem magnitude e direção. Em uma CapsNet:

Magnitude (Comprimento): Representa a probabilidade de uma entidade específica existir na entrada atual.
Direção (orientação): codifica os parâmetros de instanciação, como a estimativa da pose do objeto, escala e rotação.

As cápsulas nas camadas inferiores (que detectam formas simples, como bordas) prevêem a saída das cápsulas nas camadas superiores (que detectam objetos complexos, como olhos ou pneus). Essa comunicação é gerenciada por um algoritmo chamado "roteamento dinâmico" ou "roteamento por acordo". Se a previsão de uma cápsula de nível inferior se alinhar com o estado da cápsula de nível superior, a conexão entre elas é reforçada. Isso permite que a rede reconheça objetos de diferentes pontos de vista 3D sem exigir o aumento massivo de dados normalmente necessário para ensinar as CNNs sobre rotação e escala.

Principais diferenças: CapsNets vs. CNNs

Embora ambas as arquiteturas sejam fundamentais para a visão computacional (CV), elas diferem na forma como processam e representam os dados visuais:

Escalar vs. Vetor: Os neurónios CNN usam saídas escalares para indicar a presença de características. As CapsNets usam vetores para codificar a presença (comprimento) e os parâmetros de pose (orientação).
Roteamento vs. Pooling: As CNNs utilizam pooling para reduzir a resolução dos dados, muitas vezes perdendo detalhes de localização. As CapsNets utilizam roteamento dinâmico para preservar os dados espaciais, tornando-as altamente eficazes para tarefas que exigem rastreamento preciso de objetos .
Eficiência de dados: como as cápsulas compreendem implicitamente pontos de vista 3D e transformações afins, elas podem frequentemente generalizar a partir de menos dados de treino em comparação com as CNNs, que podem exigir exemplos extensos para aprender todas as rotações possíveis de um objeto.

Aplicações no Mundo Real

Embora as CapsNets sejam frequentemente mais dispendiosas em termos computacionais do que modelos otimizados como o YOLO26, elas oferecem vantagens distintas em domínios especializados :

Análise de imagens médicas: Na área da saúde, a orientação e a forma precisas de uma anomalia são fundamentais. Os investigadores aplicaram CapsNets à segmentação de tumores cerebrais, onde o modelo deve distinguir um tumor do tecido circundante com base em hierarquias espaciais subtis que as CNNs padrão podem suavizar . Pode explorar pesquisas relacionadas sobre Redes de Cápsulas em Imagens Médicas.
Reconhecimento de dígitos sobrepostos: O CapsNets alcançou resultados de ponta no MNIST , especificamente em cenários em que os dígitos se sobrepõem. Como a rede rastreia a "pose" de cada dígito, ela pode separar dois números sobrepostos (por exemplo, um "3" em cima de um "5") como objetos distintos, em vez de mesclá-los em um único mapa de características confuso .

Contexto prático e implementação

As Capsule Networks são principalmente uma arquitetura de classificação. Embora ofereçam robustez teórica, as aplicações industriais modernas geralmente favorecem CNNs ou Transformers de alta velocidade para desempenho em tempo real. No entanto, é útil compreender os benchmarks de classificação usados para CapsNets, como MNIST.

O exemplo a seguir demonstra como treinar um modelo moderno. Modelo YOLO no conjunto MNIST usando o ultralytics pacote. Isso é semelhante à tarefa de referência principal usada para validar as redes de cápsulas.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

O futuro das cápsulas e da IA visual

Os princípios por trás das redes de cápsulas continuam a influenciar a pesquisa sobre segurança e interpretabilidade da IA. Ao modelar explicitamente as relações entre partes e o todo, as cápsulas oferecem uma alternativa de "caixa de vidro" à natureza de "caixa preta" das redes neurais profundas, tornando as decisões mais explicáveis. Os desenvolvimentos futuros buscam combinar a robustez espacial das cápsulas com a velocidade de inferência de arquiteturas como YOLO11 ou a mais recente YOLO26 para melhorar o desempenho na detecção de objetos 3D e robótica. Os investigadores também estão a explorar as Matrix Capsules com EM Routing para reduzir ainda mais o custo computacional do algoritmo de concordância.

Para desenvolvedores que desejam gerenciar conjuntos de dados e treinar modelos com eficiência, a Ultralytics oferece um ambiente unificado para anotar dados, treinar na nuvem e implementar modelos que equilibram a velocidade das CNNs com a precisão necessária para tarefas complexas de visão .

Redes de Cápsulas (CapsNet)

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

A limitação das CNNs tradicionais

Como funcionam as redes cápsula

Principais diferenças: CapsNets vs. CNNs

Aplicações no Mundo Real

Contexto prático e implementação

O futuro das cápsulas e da IA visual

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

O que é a estimativa de profundidade monocular? Uma visão geral

Uma análise sobre o usoYOLO Ultralytics para deteção de ameaças por IA

Junte-se à comunidade Ultralytics