探索 Capsule Networks (CapsNets):一种在空间层级和特征关系方面表现出色的突破性神经网络架构。
Capsule 网络,通常缩写为 CapsNets,是一种神经网络 (NN)架构,旨在克服卷积神经网络 (CNN)的一些关键限制。CapsNets 由 Geoffrey Hinton 及其团队引入,旨在更好地识别图像中特征之间的层级关系。与标准 CNN 中输出单个标量值的神经元不同,CapsNet 中的“capsule”输出一个向量,从而可以编码有关对象属性的更详细信息,例如其姿势(位置、大小、方向)、形变和纹理。这种结构使其本质上对视角和方向的变化更加鲁棒。
CapsNet背后的核心创新是它们能够保留特征之间的空间层次结构。虽然CNN可能会识别面部的组成部分(如嘴巴、鼻子和眼睛),但它并没有明确理解它们之间的空间关系。然而,CapsNet使用称为胶囊的神经元组来识别这些部分及其相对方向。这是通过称为“动态路由”的过程实现的,其中较低级别的胶囊将其输出发送到可以最好地解释其发现的较高级别的胶囊。这种方法与CNN中的池化层根本不同,池化层通常会丢弃重要的空间信息。最初的概念在论文Dynamic Routing Between Capsules中有详细说明。
CapsNet 和 CNN 之间的主要区别在于它们如何处理空间信息和抽象。
虽然像 Ultralytics YOLO 这样的模型针对实际计算机视觉 (CV)任务的速度和准确性进行了高度优化,但 CapsNets 代表了一种替代的架构理念,专注于提高对视觉场景的基本理解。您可以探索不同目标检测模型之间的比较,以了解当前的格局。
尽管 CapsNets 目前仍主要是一个活跃的研究领域,并且不如 YOLO11 等已建立的模型那样普遍部署,但它们已在多个领域展现出前景:
其他潜在应用包括改进目标检测,尤其是在杂乱的场景中,增强机器人技术中的场景理解,并为自动驾驶汽车构建更强大的感知系统。虽然计算需求仍然是一个挑战,但目前的研究旨在优化 CapsNet 的效率,以使其能够更广泛地应用于机器学习(ML),并有可能集成到 PyTorch 或 TensorFlow 等框架中。