Glosario

Capsule Networks (CapsNet)

Descubra las redes de cápsulas (CapsNets): Una innovadora arquitectura de redes neuronales que destaca en jerarquías espaciales y relaciones de características.

Las redes de cápsulas, a menudo abreviadas como CapsNets, representan un tipo innovador de arquitectura de red neuronal (NN ) diseñada como alternativa a las redes neuronales convolucionales (CNN) tradicionales. Presentadas por primera vez por el investigador Geoffrey Hinton y su equipo, las CapsNets pretenden resolver las limitaciones fundamentales de las CNN a la hora de procesar las jerarquías espaciales y las relaciones entre las características de una imagen. Aunque las CNN destacan en la extracción de características, su uso de capas de agrupación puede provocar una pérdida de información espacial precisa. Las CapsNets proponen un enfoque diferente mediante el uso de "cápsulas", grupos de neuronas que emiten vectores en lugar de valores escalares individuales. Estos vectores codifican información más rica sobre las características detectadas, incluidas propiedades como la pose (posición, orientación, escala) y la probabilidad de presencia de la característica. Esta estructura permite a las CapsNets modelar mejor las relaciones parte-todo y mantener la conciencia espacial, lo que puede mejorar la robustez frente a los cambios de punto de vista en las tareas de visión por ordenador (VC).

Conceptos básicos

El elemento central de una CapsNet es la "cápsula". A diferencia de las neuronas estándar, cada cápsula detecta una entidad específica dentro de una región de la entrada y emite un vector. La magnitud (longitud) del vector indica la probabilidad de que la entidad detectada exista, mientras que su orientación representa los parámetros de instanciación de la entidad, como su pose precisa o detalles de textura. Esta salida basada en vectores contrasta claramente con la activación escalar típica de muchos otros modelos de aprendizaje profundo (deep learning, DL).

Las cápsulas de las capas inferiores generan predicciones para las salidas de las cápsulas de las capas superiores mediante matrices de transformación. Un mecanismo crucial conocido como "enrutamiento por acuerdo" determina dinámicamente las conexiones entre estas capas. Si las predicciones de varias cápsulas de nivel inferior coinciden en cuanto a la presencia y la posición de una característica de nivel superior, se activa la cápsula de nivel superior correspondiente. Este proceso de enrutamiento dinámico permite a la red reconocer partes y comprender cómo se ensamblan en un todo, preservando eficazmente las jerarquías espaciales. Las ideas fundamentales se detallan en el artículo"Dynamic Routing Between Capsules". Este planteamiento ayuda en tareas que requieren una comprensión matizada de la composición de los objetos, mejorando potencialmente el rendimiento con menos necesidad de un aumento extensivo de los datos.

Principales diferencias con las redes neuronales convolucionales (CNN)

Las CapsNets ofrecen un paradigma diferente en comparación con las CNN ampliamente utilizadas, sobre todo en el manejo de datos espaciales y la representación de características:

  • Manejo de la jerarquía espacial: Las CNN suelen perder información espacial al agrupar capas, que resumen la presencia de características en regiones. Las CapsNets están diseñadas para preservar explícitamente las relaciones jerárquicas de pose entre las características, lo que las hace intrínsecamente mejores para comprender la estructura de los objetos.
  • Representación de características: Las CNN suelen utilizar activaciones escalares para representar la presencia de una característica. Las CapsNets utilizan salidas vectoriales (cápsulas) que codifican tanto la presencia como las propiedades (como la pose y la deformación) de una característica.
  • Equivarianza del punto de vista: Las CapsNets buscan la equivocidad, lo que significa que la representación cambia de forma predecible con los cambios de punto de vista, mientras que las CNN a menudo requieren grandes cantidades de datos de entrenamiento para aprender la invariabilidad del punto de vista.
  • Mecanismo de enrutamiento: Las CNN utilizan la agrupación máxima u otros métodos de agrupación estática. Las CapsNets emplean el enrutamiento dinámico por acuerdo, que pondera las conexiones en función de la coherencia de las predicciones entre las capas de la cápsula.

Ventajas de las redes de cápsulas

Las CapsNets presentan varias ventajas potenciales sobre las arquitecturas de redes neuronales convencionales:

  • Mayor robustez ante los puntos de vista: Su estructura les permite generalizar mejor a nuevos puntos de vista sin necesidad de ver esos puntos de vista específicos durante el entrenamiento.
  • Mejor modelado de la relación parte-todo: El mecanismo de enrutamiento ayuda a CapsNets a entender cómo se combinan las partes para formar objetos, algo crucial para tareas complejas de reconocimiento de imágenes.
  • Eficiencia de datos: Podrían alcanzar una alta precisión con conjuntos de datos más pequeños en comparación con las CNN, en particular para tareas sensibles a las relaciones espaciales.
  • Segmentación de objetos superpuestos: La capacidad de representar múltiples entidades y sus poses dentro de una región podría ayudar en tareas como la segmentación de instancias donde los objetos se superponen significativamente. La gestión de la formación y el despliegue puede realizarse mediante plataformas como Ultralytics HUB.

Aplicaciones reales

Aunque las CapsNets siguen siendo principalmente un área de investigación activa y su despliegue es menos habitual que el de modelos establecidos como Ultralytics YOLO o YOLO11, han demostrado ser prometedoras en varios ámbitos:

  1. Reconocimiento de caracteres: CapsNets obtuvo los mejores resultados en el conjunto de datos MNIST de dígitos manuscritos, demostrando su capacidad para manejar variaciones de orientación y estilo con eficacia, superando a los enfoques tradicionales de clasificación de imágenes en algunas pruebas.
  2. Análisis de imágenes médicas: Su capacidad para comprender configuraciones espaciales las hace idóneas para analizar exploraciones médicas. Por ejemplo, se ha investigado el uso de CapsNets para tareas como la segmentación de tumores cerebrales, en la que es fundamental identificar la forma y ubicación precisas de las anomalías. Esto entra dentro del campo más amplio del análisis de imágenes médicas.

Otras aplicaciones potenciales incluyen la mejora de la detección de objetos, en particular en escenas desordenadas, la mejora de la comprensión de escenas en robótica y la contribución a sistemas de percepción más robustos para vehículos autónomos. Aunque las demandas computacionales siguen siendo un reto, la investigación en curso tiene como objetivo optimizar la eficiencia de CapsNet para aplicaciones más amplias de aprendizaje automático (ML) y la posible integración en marcos como PyTorch o TensorFlow. Puede explorar comparaciones entre diferentes modelos de detección de objetos para comprender dónde podrían encajar las CapsNets en el panorama futuro.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles