Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Redes de Cápsulas (CapsNet)

Descubra las Redes de Cápsulas (CapsNets): Una innovadora arquitectura de red neuronal que destaca en jerarquías espaciales y relaciones de características.

Las Capsule Networks (CapsNets) representan una sofisticada evolución en el campo del aprendizaje profundo (deep learning, DL) diseñada para limitaciones específicas de las redes neuronales convolucionales (CNN) tradicionales. Introducida por primera vez por el prestigioso investigador Geoffrey Hinton y sus colegas, esta arquitectura organiza las neuronas en grupos conocidos como "cápsulas". A diferencia de las neuronas estándar que emiten un único valor de activación escalar, una cápsula emite un vector. La orientación y longitud del vector permiten a la Esta orientación y longitud del vector permiten a la red codificar información más rica sobre un objeto, como su posición exacta, tamaño, orientación y textura. Esta capacidad permite que el modelo comprenda mejor las relaciones jerárquicas entre las características, esencialmente gráficos inversos" para deconstruir una escena visual.

Comprender el mecanismo central

La característica definitoria de una CapsNet es su capacidad para preservar las relaciones espaciales entre las distintas partes de un objeto. de un objeto. En un flujo de trabajo visión por ordenador (CV) estándar que utiliza CNNs, las capas las capas suelen utilizar operaciones de agrupación para reducir la dimensionalidad, lo que suele descartar datos espaciales precisos para lograr la invariabilidad. invarianza. Sin embargo, las CapsNets persiguen la "equivocidad", es decir, que si un objeto se mueve o gira en la imagen, la representación vectorial de la cápsula cambia proporcionalmente en lugar de volverse irreconocible.

Esto se consigue mediante un proceso llamado "enrutamiento dinámico" o "enrutamiento por acuerdo". En lugar de de enviar señales a todas las neuronas de la capa siguiente, las cápsulas de nivel inferior envían sus salidas a las cápsulas de nivel superior que están "de acuerdo" con su predicción. que "concuerdan" con su predicción. Por ejemplo, una cápsula que detecta una nariz enviará una señal clara a una cápsula de la cara si la nariz está "de acuerdo" con su predicción espacial. si la orientación espacial coincide, lo que refuerza la comprensión estructural del proceso de extracción de características. proceso de extracción de características. Este concepto en el artículo de investigación Enrutamiento dinámico entre cápsulas.

Diferenciar las CapsNets de las CNN

Aunque ambas arquitecturas son fundamentales aprendizaje automático (AM), difieren significativamente en cómo procesan los datos visuales:

  • Salidas escalares frente a vectoriales: Las neuronas CNN proporcionan un valor escalar que indica la presencia de una característica. Las CapsNets utilizan salidas vectoriales para representar la existencia de una entidad y sus propiedades (pose, deformación, tono).
  • Agrupación frente a enrutamiento: Las CNN utilizan capas de agrupamiento (como max pooling) para lograr la invariabilidad traslacional, perdiendo a menudo detalles de localización. Las CapsNets utilizan el enrutamiento dinámico para jerarquías espaciales, lo que las hace potencialmente más efectivas para tareas como la estimación de la pose.
  • Eficiencia de datos: Dado que las CapsNets codifican internamente las variaciones del punto de vista, pueden requerir menos para generalizar en comparación con los modelos tradicionales, que a menudo de datos para aprender las transformaciones afines.

Aplicaciones en el mundo real

Aunque las CapsNets requieren muchos cálculos y su adopción está menos extendida que la de arquitecturas optimizadas como YOLO11han demostrado ser prometedoras en ámbitos de alto riesgo:

  1. Análisis de imágenes médicas: La capacidad de manejar jerarquías espaciales hace que CapsNets sea valiosa para el análisis de imágenes médicas. Por ejemplo los investigadores las han aplicado a segmentación de tumores cerebrales, donde distinguir la forma y orientación exactas de un tumor respecto al tejido circundante.
  2. Reconocimiento de dígitos manuscritos: CapsNets ha obtenido los mejores resultados en el conjunto de datos conjunto de datosMNIST , especialmente en los que se solapan dígitos y en los que de clasificación de imágenes estándar los modelos estándar de clasificación de imágenes.

Aplicación práctica

Aunque las CapsNets ofrecen ventajas teóricas, los estándares industriales modernos suelen favorecer los modelos CNN o o basados en transformadores. Sin embargo, puede experimentar con tareas de clasificación -el principal punto de referencia para CapsNets- utilizando el ultralytics biblioteca. El siguiente ejemplo muestra el entrenamiento de un modelo de clasificación YOLO11 en el conjunto de datos MNIST , un campo de juego habitual para probar el reconocimiento de características jerárquicas.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Perspectivas de futuro

La investigación sobre las redes de cápsulas sigue influyendo en el desarrollo de la seguridad e interpretabilidad de la IA. Al modelar explícitamente parte-todo, ofrecen un camino hacia una IA más explicable en comparación con la naturaleza de "caja negra" de de algunas redes profundas. Los avances futuros pueden centrarse en integrar estos conceptos en detección de objetos en 3D y reducir el el coste computacional de los algoritmos de enrutamiento, fusionando potencialmente la eficiencia de modelos como YOLO26 con la sólida comprensión espacial de las cápsulas.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora