术语表

胶囊网络(CapsNet)

探索胶囊网络(CapsNets):一种开创性的神经网络架构,擅长空间层次和特征关系。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

胶囊网络(通常缩写为 CapsNets)是一种创新型神经网络(NN)架构,旨在替代传统的卷积神经网络(CNN)。CapsNets 由人工智能研究员Geoffrey Hinton和他的团队首次提出,旨在解决 CNN 处理图像中空间层次和特征之间关系的基本限制。虽然 CNN 擅长特征提取,但其使用的汇集层会导致精确空间信息的丢失。CapsNets 提出了一种不同的方法,即使用 "胶囊"--输出向量而非单一标量值的神经元组。这些向量编码了有关检测到的特征的更丰富信息,包括姿势(位置、方向、比例)和特征存在的概率等属性。这种结构使 CapsNets 能够更好地模拟部分与整体的关系,并保持空间感知能力,从而在计算机视觉(CV)任务中提高对视点变化的鲁棒性。

核心理念

CapsNet 的核心元素是 "胶囊"。与标准神经元不同,每个 "胶囊 "检测输入区域内的特定实体,并输出一个向量。矢量的大小(长度)表示检测到的实体存在的概率,而其方向则代表实体的实例化参数,如精确的姿势或纹理细节。这种基于向量的输出与许多其他深度学习(DL)模型中典型的标量激活形成鲜明对比。

低层的胶囊利用转换矩阵对高层胶囊的输出进行预测。一种被称为 "协议路由 "的重要机制可以动态决定这些层之间的连接。如果多个低层胶囊对高层特征的存在和姿态的预测一致,相应的高层胶囊就会激活。这种动态路由过程使网络能够识别各个部分,并了解它们是如何组合成一个整体的,从而有效地保留了空间层次结构。论文"胶囊之间的动态路由"详细介绍了这一基本思想。这种方法有助于完成需要细致入微地了解物体组成的任务,从而提高性能,减少对大量数据增强的需求。

与卷积神经网络 (CNN) 的主要区别

与广泛使用的 CNN 相比,CapsNets 提供了一种不同的模式,尤其是在处理空间数据和表示特征方面:

  • 空间层次处理:CNN 通常会通过汇集层丢失空间信息,因为汇集层会汇总各区域的特征存在。CapsNets 在设计上明确保留了特征之间的层次姿态关系,因此在理解物体结构方面更胜一筹。
  • 特征表示:CNN 通常使用标量激活来表示特征的存在。CapsNets 使用向量输出(胶囊)来编码特征的存在和属性(如姿势和变形)。
  • 视点等差性:CapsNets 的目标是实现等差性,这意味着表征会随着视点的移动而发生可预测的变化,而 CNN 通常需要大量的训练数据来学习视点不变性。
  • 路由机制:CNN 使用最大池化或其他静态池化方法。CapsNets 采用动态协议路由,根据胶囊层之间预测的一致性对连接进行加权。

胶囊网络的优势

与传统的神经网络架构相比,CapsNets 具有多种潜在优势:

  • 提高视点鲁棒性:它们的结构能让它们更好地适应新视角,而无需在训练过程中看到这些特定视角。
  • 更好的部分-整体关系建模:路由机制有助于 CapsNets 理解各部分如何组合成物体,这对复杂的图像识别任务至关重要。
  • 数据效率:与 CNN 相比,它们可以在较小的数据集上实现较高的准确性,尤其是在对空间关系敏感的任务中。
  • 重叠物体的分割:在一个区域内表示多个实体及其姿态的能力可以帮助完成实例分割等任务,因为在这些任务中,物体会有明显的重叠。可以使用Ultralytics HUB 等平台进行培训和部署管理。

实际应用

尽管 CapsNets 仍主要是一个活跃的研究领域,而且与已建立的模型(如 Ultralytics YOLOYOLO11等成熟模式相比,CapsNets 的应用还不普遍:

  1. 字符识别:CapsNets 在MNIST手写数字数据集上取得了最先进的结果,展示了其有效处理方向和风格变化的能力,在某些基准中超过了传统的图像分类方法。
  2. 医学图像分析:它们在理解空间配置方面的优势使其适用于分析医学扫描。例如,研究人员探索将 CapsNets 用于脑肿瘤分割等任务,在这些任务中,识别异常的精确形状和位置至关重要。这属于更广泛的医学图像分析领域。

进一步的潜在应用包括改进物体检测(尤其是对杂乱场景的检测)、增强机器人技术中的场景理解,以及为自动驾驶汽车开发更强大的感知系统做出贡献。虽然计算需求仍然是一个挑战,但正在进行的研究旨在优化 CapsNet 的效率,使其适用于更广泛的机器学习 (ML)应用和潜在的集成框架,如 PyTorchTensorFlow.您可以探索不同物体检测模型之间的比较,以了解 CapsNet 在未来发展中的定位。

阅读全部