Explora las redes capsulares (CapsNets) y cómo resuelven las limitaciones de las CNN. Aprende sobre el enrutamiento dinámico, las jerarquías espaciales y la comparación de CapsNets con YOLO26.
Las redes de cápsulas, a menudo abreviadas como CapsNets, representan una arquitectura avanzada en el campo del aprendizaje profundo diseñada para superar las limitaciones específicas que se encuentran en las redes neuronales tradicionales. Introducidas por Geoffrey Hinton y su equipo, las CapsNets intentan imitar la organización neuronal biológica del cerebro humano más fielmente que los modelos estándar . A diferencia de una red neuronal convolucional (CNN) típica, que destaca en la detección de características pero a menudo pierde relaciones espaciales debido al submuestreo, una red de cápsulas organiza las neuronas en grupos llamados «cápsulas». Estas cápsulas codifican no solo la probabilidad de la presencia de un objeto, sino también sus propiedades específicas, como la orientación, el tamaño y la textura, conservando eficazmente las relaciones espaciales jerárquicas dentro de los datos visuales.
Para comprender la innovación de CapsNets, es útil observar cómo funcionan los modelos estándar de visión por computadora. Una CNN convencional utiliza capas de extracción de características seguidas de capas de agrupación , concretamente agrupación máxima, para reducir la carga computacional y lograr la invariancia traslacional. Esto significa que una CNN puede identificar un «gato» independientemente de dónde se encuentre en la imagen.
Sin embargo, este proceso a menudo descarta datos de ubicación precisos, lo que conduce al «problema Picasso»: una CNN podría classify rostro correctamente incluso si la boca está en la frente, simplemente porque todas las características necesarias están presentes. Las CapsNets abordan esto eliminando las capas de agrupación y sustituyéndolas por un proceso que respeta las jerarquías espaciales de los objetos.
El componente básico de esta arquitectura es la cápsula, un conjunto anidado de neuronas que genera un vector en lugar de un valor escalar. En matemáticas vectoriales, un vector tiene magnitud y dirección. En una CapsNet:
Las cápsulas de las capas inferiores (que detectan formas simples como bordes) predicen el resultado de las cápsulas de las capas superiores (que detectan objetos complejos como ojos o neumáticos). Esta comunicación se gestiona mediante un algoritmo denominado «enrutamiento dinámico» o «enrutamiento por acuerdo». Si la predicción de una cápsula de nivel inferior se alinea con el estado de la cápsula de nivel superior , la conexión entre ellas se refuerza. Esto permite a la red reconocer objetos desde diferentes puntos de vista 3D sin necesidad del enorme aumento de datos que suele ser necesario para enseñar a las CNN sobre la rotación y la escala.
Aunque ambas arquitecturas son fundamentales para la visión artificial (CV), difieren en cómo procesan y representan los datos visuales:
Aunque las redes CapsNet suelen ser más costosas desde el punto de vista computacional que los modelos optimizados como YOLO26, ofrecen ventajas claras en ámbitos especializados:
Las redes Capsule son principalmente una arquitectura de clasificación. Aunque ofrecen solidez teórica, las aplicaciones industriales modernas a menudo prefieren las CNN o los Transformers de alta velocidad para obtener un rendimiento en tiempo real. Sin embargo, es útil comprender los puntos de referencia de clasificación utilizados para las CapsNets, como MNIST.
El siguiente ejemplo muestra cómo entrenar un modelo moderno.
Modelo YOLO en el MNIST utilizando el
ultralytics paquete. Esto es paralelo a la tarea de referencia principal utilizada para validar las redes de cápsulas.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Los principios que sustentan las redes de cápsulas siguen influyendo en la investigación sobre la seguridad y la interpretabilidad de la IA. Al modelar explícitamente las relaciones entre las partes y el todo, las cápsulas ofrecen una alternativa de «caja de cristal» a la naturaleza de «caja negra» de las redes neuronales profundas, lo que hace que las decisiones sean más explicables. Los desarrollos futuros buscan combinar la robustez espacial de las cápsulas con la velocidad de inferencia de arquitecturas como YOLO11 o la más reciente YOLO26 para mejorar el rendimiento en la detección de objetos 3D y la robótica. Los investigadores también están explorando las cápsulas matriciales con enrutamiento EM para reducir aún más el coste computacional del algoritmo de acuerdo.
Para los desarrolladores que buscan gestionar conjuntos de datos y entrenar modelos de manera eficiente, Ultralytics proporciona un entorno unificado para anotar datos, entrenar en la nube e implementar modelos que equilibran la velocidad de las CNN con la precisión requerida para tareas de visión complejas .