Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Redes de Cápsulas (CapsNet)

Descubra as Redes de Cápsulas (CapsNets): Uma arquitetura de rede neural inovadora que se destaca em hierarquias espaciais e relações de recursos.

As redes de cápsulas (CapsNets) representam uma evolução sofisticada no domínio da aprendizagem profunda (DL) concebida para dar resposta a limitações específicas encontradas nas redes neurais convolucionais (CNNs) tradicionais. Introduzida pela primeira vez pelo renomado pesquisador Geoffrey Hinton e seus colegas, esta arquitetura organiza os neurónios em grupos conhecidos como "cápsulas". Ao contrário dos neurónios normais que emitem um único valor de ativação escalar, uma cápsula emite um vetor. Esta orientação e comprimento do vetor permitem à rede Esta orientação e comprimento do vetor permitem à rede codificar informações mais ricas sobre um objeto, como a sua posição, tamanho, orientação e textura precisas. Esta capacidade permite que o modelo compreenda melhor as relações hierárquicas entre as caraterísticas, essencialmente essencialmente, realizar "gráficos inversos" para desconstruir uma cena visual.

Compreender o mecanismo principal

A caraterística definidora de uma CapsNet é a sua capacidade de preservar as relações espaciais entre diferentes partes de um objeto. Num fluxo de trabalho num fluxo de trabalho normal de visão computacional (CV) que utiliza CNNs, as camadas utilizam frequentemente operações de agrupamento para reduzir a dimensionalidade, o que normalmente descarta dados espaciais precisos para obter invariância. No entanto, as CapsNets visam a "equivariância", o que significa que se um objeto se mover ou rodar na imagem, a representação vetorial da cápsula muda proporcionalmente, em vez de se tornar irreconhecível.

Isto é conseguido através de um processo denominado "encaminhamento dinâmico" ou "encaminhamento por acordo". Em vez de em vez de simplesmente encaminhar sinais para todos os neurónios da camada seguinte, as cápsulas de nível inferior enviam as suas saídas para cápsulas de nível superior que de nível superior que "concordam" com a sua previsão. Por exemplo, uma cápsula que detecta um nariz sinalizará fortemente uma por exemplo, uma cápsula que detecte um nariz sinalizará fortemente uma cápsula de rosto se a orientação espacial se alinhar, reforçando a compreensão estrutural do processo de extração de caraterísticas. Este conceito foi famoso no trabalho de investigação sobre Encaminhamento dinâmico entre cápsulas.

Diferenciação entre CapsNets e CNNs

Embora ambas as arquitecturas sejam fundamentais na aprendizagem automática (ML), elas divergem significativamente na forma como processam os dados visuais:

  • Saídas escalares vs. vectoriais: Os neurónios da CNN fornecem um valor escalar que indica a presença de uma caraterística. As CapsNets utilizam saídas vectoriais para representar a existência de uma entidade e as suas propriedades (pose, deformação, tonalidade).
  • Pooling vs. Encaminhamento: As CNNs utilizam camadas de pooling (como max pooling) para obter invariância translacional, perdendo frequentemente detalhes de localização. As CapsNets utilizam o roteamento dinâmico para para preservar hierarquias espaciais, tornando-as potencialmente mais eficazes para tarefas como estimativa de pose.
  • Eficiência de dados: Como as CapsNets codificam internamente as variações do ponto de vista, elas podem exigir menos dados de treino para generalizar em comparação com os modelos modelos tradicionais, que muitas vezes precisam de para aprender rotação ou transformações afins. transformações afins.

Aplicações no Mundo Real

Embora as CapsNets sejam computacionalmente intensivas e menos adoptadas do que as arquitecturas optimizadas como YOLO11mostraram-se promissoras em domínios específicos de alto risco domínios específicos de alto risco:

  1. Análise de imagens médicas: A capacidade de lidar com hierarquias espaciais torna as CapsNets valiosas para análise de imagens médicas. Por exemplo, os investigadores aplicaram-nas à segmentação de tumores cerebrais, onde distinguir a forma e orientação precisas de um tumor em relação ao tecido circundante é fundamental para um diagnóstico preciso.
  2. Reconhecimento de dígitos manuscritos: O CapsNets alcançou o desempenho mais avançado no conjunto de dados no conjunto de dadosMNIST , particularmente em cenários envolvendo dígitos sobrepostos onde os modelos de modelos de classificação de imagem padrão podem ter dificuldades para separar as caraterísticas.

Aplicação prática

Embora as CapsNets ofereçam vantagens teóricas, os padrões modernos da indústria geralmente favorecem modelos altamente otimizados baseados em CNN ou Transformer altamente otimizados para aumentar a velocidade. No entanto, é possível fazer experiências com tarefas de classificação - a principal referência para CapsNets-usando o ultralytics biblioteca. O exemplo seguinte demonstra o treino de um modelo de classificação YOLO11 no conjunto de dados MNIST , um campo de jogos comum para testar o reconhecimento de caraterísticas hierárquicas.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Perspectivas futuras

A investigação sobre as redes de cápsulas continua a influenciar o desenvolvimento da segurança e interpretabilidade da IA. Ao modelar explicitamente explicitamente as relações parte-todo, oferecem um caminho para uma IA mais explicável em comparação com a natureza de "caixa negra" de algumas redes profundas. Os avanços futuros podem centrar-se na integração destes conceitos em deteção de objectos 3D e na redução do custo computacional dos algoritmos de encaminhamento, fundindo potencialmente a eficiência de modelos como o YOLO26 com a compreensão espacial robusta das cápsulas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora