Descubra las Redes de Cápsulas (CapsNets): Una innovadora arquitectura de red neuronal que destaca en jerarquías espaciales y relaciones de características.
Las Capsule Networks (CapsNets) representan una sofisticada evolución en el campo del aprendizaje profundo (deep learning, DL) diseñada para limitaciones específicas de las redes neuronales convolucionales (CNN) tradicionales. Introducida por primera vez por el prestigioso investigador Geoffrey Hinton y sus colegas, esta arquitectura organiza las neuronas en grupos conocidos como "cápsulas". A diferencia de las neuronas estándar que emiten un único valor de activación escalar, una cápsula emite un vector. La orientación y longitud del vector permiten a la Esta orientación y longitud del vector permiten a la red codificar información más rica sobre un objeto, como su posición exacta, tamaño, orientación y textura. Esta capacidad permite que el modelo comprenda mejor las relaciones jerárquicas entre las características, esencialmente gráficos inversos" para deconstruir una escena visual.
La característica definitoria de una CapsNet es su capacidad para preservar las relaciones espaciales entre las distintas partes de un objeto. de un objeto. En un flujo de trabajo visión por ordenador (CV) estándar que utiliza CNNs, las capas las capas suelen utilizar operaciones de agrupación para reducir la dimensionalidad, lo que suele descartar datos espaciales precisos para lograr la invariabilidad. invarianza. Sin embargo, las CapsNets persiguen la "equivocidad", es decir, que si un objeto se mueve o gira en la imagen, la representación vectorial de la cápsula cambia proporcionalmente en lugar de volverse irreconocible.
Esto se consigue mediante un proceso llamado "enrutamiento dinámico" o "enrutamiento por acuerdo". En lugar de de enviar señales a todas las neuronas de la capa siguiente, las cápsulas de nivel inferior envían sus salidas a las cápsulas de nivel superior que están "de acuerdo" con su predicción. que "concuerdan" con su predicción. Por ejemplo, una cápsula que detecta una nariz enviará una señal clara a una cápsula de la cara si la nariz está "de acuerdo" con su predicción espacial. si la orientación espacial coincide, lo que refuerza la comprensión estructural del proceso de extracción de características. proceso de extracción de características. Este concepto en el artículo de investigación Enrutamiento dinámico entre cápsulas.
Aunque ambas arquitecturas son fundamentales aprendizaje automático (AM), difieren significativamente en cómo procesan los datos visuales:
Aunque las CapsNets requieren muchos cálculos y su adopción está menos extendida que la de arquitecturas optimizadas como YOLO11han demostrado ser prometedoras en ámbitos de alto riesgo:
Aunque las CapsNets ofrecen ventajas teóricas, los estándares industriales modernos suelen favorecer los modelos CNN o
o basados en transformadores. Sin embargo, puede experimentar con tareas de clasificación -el principal punto de referencia para
CapsNets- utilizando el ultralytics biblioteca. El siguiente ejemplo muestra el entrenamiento de un modelo de clasificación YOLO11
en el conjunto de datos MNIST , un campo de juego habitual para probar el reconocimiento de características jerárquicas.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
La investigación sobre las redes de cápsulas sigue influyendo en el desarrollo de la seguridad e interpretabilidad de la IA. Al modelar explícitamente parte-todo, ofrecen un camino hacia una IA más explicable en comparación con la naturaleza de "caja negra" de de algunas redes profundas. Los avances futuros pueden centrarse en integrar estos conceptos en detección de objetos en 3D y reducir el el coste computacional de los algoritmos de enrutamiento, fusionando potencialmente la eficiencia de modelos como YOLO26 con la sólida comprensión espacial de las cápsulas.