深圳Yolo 视觉
深圳
立即加入
词汇表

胶囊网络(CapsNet)

探索胶囊网络(CapsNets)及其如何突破卷积神经网络(CNNs)的局限。了解动态路由机制、空间分层结构,并对比胶囊网络与YOLO26的性能表现。

胶囊网络(常简称为CapsNets)是深度学习领域中一种先进的架构,旨在克服传统神经网络存在的特定局限性。该模型由杰弗里·辛顿及其团队提出,试图比标准模型更紧密地模拟人类大脑的生物神经组织结构。 与擅长特征检测但因下采样常丢失空间关系的典型卷积神经网络(CNN)不同,胶囊网络将神经元组织成称为"胶囊"的单元组。这些胶囊不仅编码物体存在的概率,还编码其具体属性(如方向、尺寸和纹理),从而有效保留视觉数据中的分层空间关系。

传统卷积神经网络的局限性

要理解CapsNets的创新之处,了解标准计算机视觉模型的运作机制很有帮助。传统卷积神经网络(CNN)采用多层特征提取,随后通过池化层(特别是最大池化)来降低计算负荷并实现平移不变性。这意味着CNN能够识别图像中任意位置的"猫"。

然而,该过程常会丢弃精确的位置数据,从而引发"毕加索问题":即使嘴巴出现在额头上,卷积神经网络classify 正确classify 仅仅因为所有必要特征均完整存在。CapsNets通过移除池化层并采用尊重物体空间层次结构的处理机制来解决此问题。

胶囊网络的工作原理

该架构的核心构建模块是胶囊,即一组嵌套的神经元,其输出为向量而非标量值。在向量数学中,向量同时具有大小和方向。在胶囊神经网络(CapsNet)中:

  • 幅度(长度):表示特定实体在当前输入中存在的概率。
  • 方向(定向):编码实例化参数,例如对象的姿势估计 、缩放和旋转。

底层胶囊(检测边缘等简单形状)会预测上层胶囊(检测眼睛或轮胎等复杂物体)的输出结果。这种通信由名为"动态路由"或"协议路由"的算法管理。 若低层胶囊的预测结果与高层胶囊的状态一致,两者间的连接强度将增强。这使得网络能够从不同三维视角识别物体,而无需像训练卷积神经网络(CNN)理解旋转与缩放时那样进行海量数据增强

关键差异:CapsNets 与卷积神经网络(CNNs)

虽然这两种架构都是计算机视觉(CV)的基础, 它们在处理和表示视觉数据的方式上存在差异:

  • 标量与向量:卷积神经网络(CNN)神经元使用标量输出表示特征存在。CapsNets则使用向量 来编码特征存在(长度)和姿势估计 (方向)。
  • 路由与池化:卷积神经网络(CNN)采用池化对数据进行下采样,常导致位置细节丢失。 卷积注意力网络(CapsNets)则运用动态路由机制保留空间数据,使其在需要精确物体追踪的任务中表现卓越。
  • 数据效率:由于胶囊模型能隐式理解三维视点和仿射变换,相较于卷积神经网络(CNN),它们通常能从更少的训练数据中实现泛化。而卷积神经网络可能需要大量示例才能学习物体的所有可能旋转。

实际应用

尽管CapsNets在计算成本上通常高于YOLO26等优化模型,但在特定领域中具有显著优势:

  1. 医学图像分析:在医疗领域,病变的精确方位与形态至关重要。研究人员已将胶囊网络应用于脑肿瘤分割,该模型需基于标准卷积神经网络可能忽略的细微空间层次结构,将肿瘤与周围组织区分开来。您可探索医学影像中胶囊网络的相关研究。
  2. 重叠数字识别: MNIST 取得了顶尖水平的成果,尤其在数字重叠的场景中表现突出。由于该网络能追踪每个数字的"姿势估计",它能够将两个重叠的数字(例如"5"上方叠加的"3")作为独立对象进行分离,而非将其合并为单一模糊特征图。

实践背景与实施

Capsule Networks(胶囊网络)主要是一种分类架构。虽然它们在理论上具有鲁棒性,但现代工业应用往往更青睐高速卷积神经网络(CNNs)或Transformer模型以实现实时性能。然而,理解胶囊网络所使用的分类基准数据集(MNIST)仍具有重要价值。

以下示例演示了如何训练现代 YOLO 在MNIST 上使用 ultralytics 该任务与用于验证囊状网络的主要基准任务相类似。

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

胶囊与视觉人工智能的未来

胶囊网络背后的原理持续影响着 人工智能安全与可解释性研究。通过显式建模 部分-整体关系,胶囊为深度神经网络的"黑箱"特性提供了"玻璃箱"替代方案, 使决策过程更具可解释性。未来发展将致力于融合胶囊的空间鲁棒性 与YOLO11等架构的推理速度, YOLO11 或更新的YOLO26等架构的推理速度,以提升三维物体检测与机器人系统的性能。研究人员还正探索采用EM路由的矩阵胶囊,进一步降低协议算法的计算成本。

对于希望高效管理数据集并训练模型的开发者而言,Ultralytics 提供了一个统一环境,可用于数据标注、云端训练以及部署模型——这些模型在保持卷积神经网络(CNNs)速度的同时,还能满足复杂视觉任务所需的精度要求。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入