敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

胶囊网络(CapsNet)

探索 Capsule Networks (CapsNets):一种在空间层级和特征关系方面表现出色的突破性神经网络架构。

Capsule 网络,通常缩写为 CapsNets,是一种神经网络 (NN)架构,旨在克服卷积神经网络 (CNN)的一些关键限制。CapsNets 由 Geoffrey Hinton 及其团队引入,旨在更好地识别图像中特征之间的层级关系。与标准 CNN 中输出单个标量值的神经元不同,CapsNet 中的“capsule”输出一个向量,从而可以编码有关对象属性的更详细信息,例如其姿势(位置、大小、方向)、形变和纹理。这种结构使其本质上对视角和方向的变化更加鲁棒。

胶囊网络如何工作?

CapsNet背后的核心创新是它们能够保留特征之间的空间层次结构。虽然CNN可能会识别面部的组成部分(如嘴巴、鼻子和眼睛),但它并没有明确理解它们之间的空间关系。然而,CapsNet使用称为胶囊的神经元组来识别这些部分及其相对方向。这是通过称为“动态路由”的过程实现的,其中较低级别的胶囊将其输出发送到可以最好地解释其发现的较高级别的胶囊。这种方法与CNN中的池化层根本不同,池化层通常会丢弃重要的空间信息。最初的概念在论文Dynamic Routing Between Capsules中有详细说明。

CapsNets 与卷积神经网络

CapsNet 和 CNN 之间的主要区别在于它们如何处理空间信息和抽象。

  • 空间不变性: CNN 通过池化层实现空间不变性,这可能会导致精确位置数据的丢失。相比之下,CapsNet 被设计为“等变的”,这意味着它们可以理解和保留对象在帧中移动时的姿势信息。
  • 数据效率: 由于其复杂的内部结构,与需要大量 训练数据深度学习 (DL) 模型相比,CapsNet 通常可以用明显更少的 训练数据 实现高 准确率
  • 分层表示: CapsNets 构建视觉实体的显式解析树,使其能够将整体理解为其各个部分的组成。与标准 CNN 相比,这是一种更直观地执行目标检测等任务的方式。

虽然像 Ultralytics YOLO 这样的模型针对实际计算机视觉 (CV)任务的速度和准确性进行了高度优化,但 CapsNets 代表了一种替代的架构理念,专注于提高对视觉场景的基本理解。您可以探索不同目标检测模型之间的比较,以了解当前的格局。

实际应用

尽管 CapsNets 目前仍主要是一个活跃的研究领域,并且不如 YOLO11 等已建立的模型那样普遍部署,但它们已在多个领域展现出前景:

  1. 字符识别: CapsNets 在手写数字的 MNIST 数据集上取得了最先进的结果,展示了它们有效处理方向和样式变化的能力,在某些基准测试中超越了传统的图像分类方法。
  2. 医学图像分析: 它们在理解空间配置方面的优势使其适合分析医学扫描。 例如,研究已经探索了使用 CapsNet 来执行诸如脑肿瘤分割之类的任务,其中识别异常的精确形状和位置至关重要。 这属于更广泛的医学图像分析领域。

其他潜在应用包括改进目标检测,尤其是在杂乱的场景中,增强机器人技术中的场景理解,并为自动驾驶汽车构建更强大的感知系统。虽然计算需求仍然是一个挑战,但目前的研究旨在优化 CapsNet 的效率,以使其能够更广泛地应用于机器学习(ML),并有可能集成到 PyTorchTensorFlow 等框架中。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板