术语表

胶囊网络(CapsNet)

探索胶囊网络(CapsNets):一种开创性的神经网络架构,擅长空间层次和特征关系。

胶囊网络(通常缩写为 CapsNets)是一种神经网络(NN)架构,旨在克服卷积神经网络(CNN)的一些主要局限性。CapsNets 由 Geoffrey Hinton 及其团队提出,旨在更好地识别图像中特征之间的层次关系。标准 CNN 中的神经元输出的是单一标量值,而 CapsNet 中的 "胶囊 "输出的是矢量,这使得它们能够编码有关物体属性的更详细信息,如物体的姿态(位置、大小、方向)、变形和纹理。这种结构使它们对视角和方向的变化具有固有的鲁棒性。

胶囊网络如何工作?

CapsNets 的核心创新在于其保留特征之间空间层次的能力。虽然CNN可以识别人脸的组成部分,如嘴巴、鼻子和眼睛,但并不能明确理解它们之间的空间关系。而 CapsNets 则使用称为 "胶囊 "的神经元组来识别这些部分及其相对方向。这是通过一种名为 "动态路由 "的过程实现的,在这个过程中,较低级别的 "胶囊 "将它们的输出发送到能够最好地解释它们的发现的较高级别的 "胶囊"。这种方法与 CNN 中的汇集层有着本质区别,后者通常会丢弃重要的空间信息。最初的概念详见论文《胶囊之间的动态路由》。

CapsNets 对卷积神经网络

CapsNets 和 CNN 的主要区别在于它们如何处理空间信息和抽象。

  • 空间不变性:CNN 通过汇集各层来实现空间不变性,这可能会导致精确位置数据的丢失。相比之下,CapsNets 的设计具有 "等变性",这意味着当物体在帧中移动时,它们可以理解并保留物体的姿态信息。
  • 数据效率:由于 CapsNets 内部结构复杂,因此与对数据要求极高的深度学习 (DL)模型相比,CapsNets 通常只需较少的训练数据就能达到很高的准确率
  • 分层表示:CapsNets 建立了一棵明确的视觉实体解析树,使其能够将整体理解为各部分的组合。与标准的 CNN 相比,这是一种执行物体检测等任务的更直观的方法。

Ultralytics YOLO等模型针对实际计算机视觉(CV)任务的速度和准确性进行了高度优化,而 CapsNets 则代表了另一种架构理念,其重点在于提高对视觉场景的基本理解。您可以探索不同物体检测模型之间的比较,以了解当前的状况。

实际应用

尽管 CapsNets 仍主要是一个活跃的研究领域,而且与YOLO11 等成熟模型相比,其部署并不普遍,但它们已在多个领域展现出前景:

  1. 字符识别:CapsNets 在MNIST手写数字数据集上取得了最先进的结果,展示了其有效处理方向和风格变化的能力,在某些基准中超过了传统的图像分类方法。
  2. 医学图像分析:它们在理解空间配置方面的优势使其适用于分析医学扫描。例如,研究人员探索将 CapsNets 用于脑肿瘤分割等任务,在这些任务中,识别异常的精确形状和位置至关重要。这属于更广泛的医学图像分析领域。

进一步的潜在应用包括改进物体检测(尤其是对杂乱场景的检测)、增强机器人技术中的场景理解,以及为自动驾驶汽车开发更强大的感知系统做出贡献。虽然计算需求仍然是一个挑战,但正在进行的研究旨在优化 CapsNet 的效率,使其适用于更广泛的机器学习 (ML)应用,并有可能集成到PyTorchTensorFlow 等框架中。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板