Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Redes de Cápsulas (CapsNet)

Explora las redes capsulares (CapsNets) y cómo resuelven las limitaciones de las CNN. Aprende sobre el enrutamiento dinámico, las jerarquías espaciales y la comparación de CapsNets con YOLO26.

Las redes de cápsulas, a menudo abreviadas como CapsNets, representan una arquitectura avanzada en el campo del aprendizaje profundo diseñada para superar las limitaciones específicas que se encuentran en las redes neuronales tradicionales. Introducidas por Geoffrey Hinton y su equipo, las CapsNets intentan imitar la organización neuronal biológica del cerebro humano más fielmente que los modelos estándar . A diferencia de una red neuronal convolucional (CNN) típica, que destaca en la detección de características pero a menudo pierde relaciones espaciales debido al submuestreo, una red de cápsulas organiza las neuronas en grupos llamados «cápsulas». Estas cápsulas codifican no solo la probabilidad de la presencia de un objeto, sino también sus propiedades específicas, como la orientación, el tamaño y la textura, conservando eficazmente las relaciones espaciales jerárquicas dentro de los datos visuales.

Las limitaciones de las CNN tradicionales

Para comprender la innovación de CapsNets, es útil observar cómo funcionan los modelos estándar de visión por computadora. Una CNN convencional utiliza capas de extracción de características seguidas de capas de agrupación , concretamente agrupación máxima, para reducir la carga computacional y lograr la invariancia traslacional. Esto significa que una CNN puede identificar un «gato» independientemente de dónde se encuentre en la imagen.

Sin embargo, este proceso a menudo descarta datos de ubicación precisos, lo que conduce al «problema Picasso»: una CNN podría classify rostro correctamente incluso si la boca está en la frente, simplemente porque todas las características necesarias están presentes. Las CapsNets abordan esto eliminando las capas de agrupación y sustituyéndolas por un proceso que respeta las jerarquías espaciales de los objetos.

Cómo funcionan las redes de cápsulas

El componente básico de esta arquitectura es la cápsula, un conjunto anidado de neuronas que genera un vector en lugar de un valor escalar. En matemáticas vectoriales, un vector tiene magnitud y dirección. En una CapsNet:

  • Magnitud (longitud): Representa la probabilidad de que una entidad específica exista en la entrada actual.
  • Dirección (orientación): codifica los parámetros de instanciación, como la estimación de la pose, la escala y la rotación del objeto.

Las cápsulas de las capas inferiores (que detectan formas simples como bordes) predicen el resultado de las cápsulas de las capas superiores (que detectan objetos complejos como ojos o neumáticos). Esta comunicación se gestiona mediante un algoritmo denominado «enrutamiento dinámico» o «enrutamiento por acuerdo». Si la predicción de una cápsula de nivel inferior se alinea con el estado de la cápsula de nivel superior , la conexión entre ellas se refuerza. Esto permite a la red reconocer objetos desde diferentes puntos de vista 3D sin necesidad del enorme aumento de datos que suele ser necesario para enseñar a las CNN sobre la rotación y la escala.

Diferencias clave: CapsNets frente a CNN

Aunque ambas arquitecturas son fundamentales para la visión artificial (CV), difieren en cómo procesan y representan los datos visuales:

  • Escalar frente a vector: las neuronas CNN utilizan salidas escalares para indicar la presencia de características. Las CapsNets utilizan vectores para codificar la presencia (longitud) y los parámetros de pose (orientación).
  • Enrutamiento frente a agrupación: las CNN utilizan la agrupación para reducir la resolución de los datos, lo que a menudo conlleva la pérdida de detalles de ubicación. Las CapsNets utilizan el enrutamiento dinámico para conservar los datos espaciales, lo que las hace muy eficaces para tareas que requieren un seguimiento preciso de objetos.
  • Eficiencia de datos: dado que las cápsulas comprenden implícitamente los puntos de vista 3D y las transformaciones afines, a menudo pueden generalizar a partir de menos datos de entrenamiento en comparación con las CNN, que pueden requerir ejemplos extensos para aprender todas las rotaciones posibles de un objeto.

Aplicaciones en el mundo real

Aunque las redes CapsNet suelen ser más costosas desde el punto de vista computacional que los modelos optimizados como YOLO26, ofrecen ventajas claras en ámbitos especializados:

  1. Análisis de imágenes médicas: En el ámbito sanitario, la orientación y la forma precisas de una anomalía son fundamentales. Los investigadores han aplicado CapsNets a la segmentación de tumores cerebrales, donde el modelo debe distinguir un tumor del tejido circundante basándose en sutiles jerarquías espaciales que las CNN estándar podrían suavizar . Puede explorar investigaciones relacionadas con las redes de cápsulas en imágenes médicas.
  2. Reconocimiento de dígitos superpuestos: CapsNets logró resultados de vanguardia en el MNIST , específicamente en escenarios en los que los dígitos se superponen. Dado que la red rastrea la «posición» de cada dígito, puede separar dos números superpuestos (por ejemplo, un «3» encima de un «5») como objetos distintos, en lugar de fusionarlos en un único mapa de características confuso .

Contexto práctico y aplicación

Las redes Capsule son principalmente una arquitectura de clasificación. Aunque ofrecen solidez teórica, las aplicaciones industriales modernas a menudo prefieren las CNN o los Transformers de alta velocidad para obtener un rendimiento en tiempo real. Sin embargo, es útil comprender los puntos de referencia de clasificación utilizados para las CapsNets, como MNIST.

El siguiente ejemplo muestra cómo entrenar un modelo moderno. Modelo YOLO en el MNIST utilizando el ultralytics paquete. Esto es paralelo a la tarea de referencia principal utilizada para validar las redes de cápsulas.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

El futuro de las cápsulas y la visión artificial

Los principios que sustentan las redes de cápsulas siguen influyendo en la investigación sobre la seguridad y la interpretabilidad de la IA. Al modelar explícitamente las relaciones entre las partes y el todo, las cápsulas ofrecen una alternativa de «caja de cristal» a la naturaleza de «caja negra» de las redes neuronales profundas, lo que hace que las decisiones sean más explicables. Los desarrollos futuros buscan combinar la robustez espacial de las cápsulas con la velocidad de inferencia de arquitecturas como YOLO11 o la más reciente YOLO26 para mejorar el rendimiento en la detección de objetos 3D y la robótica. Los investigadores también están explorando las cápsulas matriciales con enrutamiento EM para reducir aún más el coste computacional del algoritmo de acuerdo.

Para los desarrolladores que buscan gestionar conjuntos de datos y entrenar modelos de manera eficiente, Ultralytics proporciona un entorno unificado para anotar datos, entrenar en la nube e implementar modelos que equilibran la velocidad de las CNN con la precisión requerida para tareas de visión complejas .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora