Capsule Networks (CapsNet)

Descubra las redes de cápsulas (CapsNets): Una innovadora arquitectura de redes neuronales que destaca en jerarquías espaciales y relaciones de características.

Las redes de cápsulas, a menudo abreviadas como CapsNets, son un tipo de arquitectura de red neuronal (NN ) diseñada para superar algunas de las principales limitaciones de las redes neuronales convolucionales (CNN). Introducidas por Geoffrey Hinton y su equipo, las CapsNets pretenden reconocer mejor las relaciones jerárquicas entre las características de una imagen. A diferencia de las neuronas de una CNN estándar, que emiten un único valor escalar, las "cápsulas" de una CapsNet emiten un vector, lo que les permite codificar información más detallada sobre las propiedades de un objeto, como su pose (posición, tamaño, orientación), deformación y textura. Esta estructura las hace más resistentes a los cambios de punto de vista y orientación.

¿Cómo funcionan las redes de cápsulas?

La principal innovación de las CapsNets es su capacidad para preservar las jerarquías espaciales entre las características. Una CNN puede reconocer los componentes de una cara, como la boca, la nariz y los ojos, pero no entiende explícitamente sus relaciones espaciales. Las CapsNets, sin embargo, utilizan grupos de neuronas llamados cápsulas para identificar estas partes y sus orientaciones relativas. Esto se consigue mediante un proceso denominado "enrutamiento dinámico", en el que las cápsulas de nivel inferior envían sus resultados a las cápsulas de nivel superior que mejor puedan dar cuenta de sus hallazgos. Este planteamiento es fundamentalmente distinto de las capas de agrupación de las CNN, que a menudo descartan información espacial importante. El concepto original se detalla en el artículo Dynamic Routing Between Capsules.

CapsNets frente a redes neuronales convolucionales

La principal diferencia entre las CapsNets y las CNN radica en cómo manejan la información espacial y la abstracción.

Invariabilidad espacial: Las CNN logran la invariabilidad espacial mediante la agrupación de capas, lo que puede provocar una pérdida de datos precisos de localización. Las CapsNets, por el contrario, están diseñadas para ser "equivariantes", lo que significa que pueden comprender y preservar la información sobre la pose de un objeto a medida que se desplaza por el fotograma.
Eficiencia de datos: Debido a su sofisticada estructura interna, CapsNets a menudo puede lograr una alta precisión con significativamente menos datos de entrenamiento en comparación con los modelos de aprendizaje profundo (DL) hambrientos de datos.
Representación jerárquica: Las CapsNets construyen un árbol de análisis explícito de las entidades visuales, lo que les permite entender el todo como una composición de sus partes. Se trata de una forma más intuitiva de realizar tareas como la detección de objetos que la que ofrecen las CNN estándar.

Mientras que modelos como Ultralytics YOLO están muy optimizados para ofrecer velocidad y precisión en tareas prácticas de visión por ordenador (CV), CapsNets representa una filosofía arquitectónica alternativa centrada en mejorar la comprensión fundamental de las escenas visuales. Puede explorar las comparaciones entre distintos modelos de detección de objetos para comprender el panorama actual.

Aplicaciones reales

Aunque las CapsNets siguen siendo principalmente un área de investigación activa y su despliegue es menos habitual que el de modelos establecidos como YOLO11, han demostrado ser prometedoras en varios ámbitos:

Reconocimiento de caracteres: CapsNets obtuvo los mejores resultados en el conjunto de datos MNIST de dígitos manuscritos, demostrando su capacidad para manejar variaciones de orientación y estilo con eficacia, superando a los enfoques tradicionales de clasificación de imágenes en algunas pruebas.
Análisis de imágenes médicas: Su capacidad para comprender configuraciones espaciales las hace idóneas para analizar exploraciones médicas. Por ejemplo, se ha investigado el uso de CapsNets para tareas como la segmentación de tumores cerebrales, en la que es fundamental identificar la forma y ubicación precisas de las anomalías. Esto entra dentro del campo más amplio del análisis de imágenes médicas.

Otras aplicaciones potenciales incluyen la mejora de la detección de objetos, en particular en escenas desordenadas, la mejora de la comprensión de escenas en robótica y la contribución a sistemas de percepción más robustos para vehículos autónomos. Aunque las demandas computacionales siguen siendo un reto, la investigación en curso tiene como objetivo optimizar la eficiencia de CapsNet para aplicaciones más amplias de aprendizaje automático (ML) y la posible integración en marcos como PyTorch o TensorFlow.

Capsule Networks (CapsNet)

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

¿Cómo funcionan las redes de cápsulas?

CapsNets frente a redes neuronales convolucionales

Aplicaciones reales

Leer más en esta categoría

FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Explicación del aprendizaje automático en bucle humano (HITL)

Automatización de la fabricación mediante IA de visión

Únase a la comunidad Ultralytics