Glosario

Redes de cápsulas (CapsNet)

Descubre las Redes de Cápsulas (CapsNets): Una innovadora arquitectura de redes neuronales que destaca en jerarquías espaciales y relaciones de rasgos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Las Redes de Cápsulas, a menudo abreviadas como CapsNets, representan un tipo innovador de arquitectura de red neuronal (NN ) diseñada como alternativa a las Redes Neuronales Convolucionales (CNN) tradicionales. Presentadas por primera vez por el investigador de IA Geoffrey Hinton y su equipo, las CapsNets pretenden abordar las limitaciones fundamentales de la forma en que las CNN procesan las jerarquías espaciales y las relaciones entre características dentro de una imagen. Aunque las CNN destacan en la extracción de características, su uso de capas de agrupación puede llevar a una pérdida de información espacial precisa. Las CapsNets proponen un enfoque diferente, utilizando "cápsulas", es decir, grupos de neuronas que emiten vectores en lugar de valores escalares individuales. Estos vectores codifican información más rica sobre las características detectadas, incluidas propiedades como la pose (posición, orientación, escala) y la probabilidad de presencia de la característica. Esta estructura permite a las CapsNets modelar mejor las relaciones parte-todo y mantener la conciencia espacial, lo que puede mejorar la solidez frente a los cambios de punto de vista en las tareas de visión por ordenador (VC).

Conceptos básicos

El elemento central de una CapsNet es la "cápsula". A diferencia de las neuronas estándar, cada cápsula detecta una entidad específica dentro de una región de la entrada y emite un vector. La magnitud (longitud) del vector indica la probabilidad de que exista la entidad detectada, mientras que su orientación representa los parámetros de instanciación de la entidad, como su pose precisa o detalles de textura. Esta salida basada en vectores contrasta claramente con la activación escalar típica de muchos otros modelos de aprendizaje profundo (DL).

Las cápsulas de las capas inferiores generan predicciones de las salidas de las cápsulas de las capas superiores mediante matrices de transformación. Un mecanismo crucial conocido como "enrutamiento por acuerdo" determina dinámicamente las conexiones entre estas capas. Si las predicciones de varias cápsulas de nivel inferior se alinean (coinciden) en cuanto a la presencia y la pose de una característica de nivel superior, se activa la cápsula de nivel superior correspondiente. Este proceso de enrutamiento dinámico permite a la red reconocer las partes y comprender cómo se ensamblan en un todo, preservando eficazmente las jerarquías espaciales. Las ideas fundamentales se detallan en el artículo"Enrutamiento dinámico entre cápsulas". Este enfoque ayuda en las tareas que requieren una comprensión matizada de la composición de los objetos, mejorando potencialmente el rendimiento con una menor necesidad de un amplio aumento de datos.

Principales diferencias con las redes neuronales convolucionales (CNN)

Las CapsNets ofrecen un paradigma diferente en comparación con las CNN ampliamente utilizadas, sobre todo en el manejo de datos espaciales y la representación de características:

  • Manejo de la jerarquía espacial: Las CNN suelen perder información espacial al agrupar capas, que resumen la presencia de rasgos en regiones. Las CapsNets están diseñadas para preservar explícitamente las relaciones jerárquicas de pose entre los rasgos, lo que las hace intrínsecamente mejores para comprender la estructura de los objetos.
  • Representación de rasgos: Las CNN suelen utilizar activaciones escalares para representar la presencia de una característica. Las CapsNets utilizan salidas vectoriales (cápsulas) que codifican tanto la presencia como las propiedades (como la pose y la deformación) de una característica.
  • Equivarianza del punto de vista: Las CapsNets buscan la equivocidad, es decir, que la representación cambie de forma predecible con los cambios de punto de vista, mientras que las CNN suelen necesitar grandes cantidades de datos de entrenamiento para aprender la invariabilidad del punto de vista.
  • Mecanismo de enrutamiento: Las CNN utilizan la agrupación máxima u otros métodos de agrupación estática. Las CapsNets emplean el enrutamiento dinámico por acuerdo, que pondera las conexiones en función de la coherencia de las predicciones entre las capas de la cápsula.

Ventajas de las redes de cápsulas

Las CapsNets presentan varias ventajas potenciales sobre las arquitecturas de redes neuronales convencionales:

  • Mayor robustez ante puntos de vista: Su estructura les permite generalizar mejor a puntos de vista novedosos sin necesidad de ver esos puntos de vista concretos durante el entrenamiento.
  • Mejor modelado de la relación parte-todo: El mecanismo de enrutamiento ayuda a CapsNets a comprender cómo se combinan las partes para formar objetos, algo crucial para tareas complejas de reconocimiento de imágenes.
  • Eficiencia de los datos: Podrían alcanzar una gran precisión con conjuntos de datos más pequeños en comparación con las CNN, sobre todo para tareas sensibles a las relaciones espaciales.
  • Segmentación de objetos superpuestos: La capacidad de representar múltiples entidades y sus poses dentro de una región podría ayudar en tareas como la segmentación de instancias en las que los objetos se solapan significativamente. La gestión de la formación y el despliegue puede hacerse utilizando plataformas como Ultralytics HUB.

Aplicaciones en el mundo real

Aunque las CapsNets siguen siendo principalmente un área de investigación activa y se utilizan menos que modelos establecidos como Ultralytics YOLO o YOLO11han demostrado ser prometedoras en varios ámbitos:

  1. Reconocimiento de caracteres: Las CapsNets obtuvieron resultados de vanguardia en el conjunto de datos MNIST de dígitos manuscritos, demostrando su capacidad para manejar variaciones de orientación y estilo con eficacia, superando a los enfoques tradicionales de clasificación de imágenes en algunos puntos de referencia.
  2. Análisis de imágenes médicas: Su fuerza para comprender configuraciones espaciales las hace adecuadas para analizar exploraciones médicas. Por ejemplo, la investigación ha explorado el uso de CapsNets para tareas como la segmentación de tumores cerebrales, donde es fundamental identificar la forma y la ubicación precisas de las anomalías. Esto entra dentro del campo más amplio del análisis de imágenes médicas.

Otras aplicaciones potenciales son la mejora de la detección de objetos, sobre todo en escenas desordenadas, la mejora de la comprensión de escenas en robótica y la contribución a sistemas de percepción más robustos para vehículos autónomos. Aunque las exigencias computacionales siguen siendo un reto, la investigación en curso pretende optimizar la eficiencia de CapsNet para aplicaciones más amplias de aprendizaje automático (AM) y su posible integración en marcos como PyTorch o TensorFlow. Puedes explorar comparaciones entre diferentes modelos de detección de objetos para comprender dónde podrían encajar las CapsNets en el panorama futuro.

Leer todo