探索胶囊网络(CapsNets):一种开创性的神经网络架构,擅长空间层次和特征关系。
胶囊网络(通常缩写为 CapsNets)是一种创新型神经网络(NN)架构,旨在替代传统的卷积神经网络(CNN)。CapsNets 由人工智能研究员Geoffrey Hinton和他的团队首次提出,旨在解决 CNN 处理图像中空间层次和特征之间关系的基本限制。虽然 CNN 擅长特征提取,但其使用的汇集层会导致精确空间信息的丢失。CapsNets 提出了一种不同的方法,即使用 "胶囊"--输出向量而非单一标量值的神经元组。这些向量编码了有关检测到的特征的更丰富信息,包括姿势(位置、方向、比例)和特征存在的概率等属性。这种结构使 CapsNets 能够更好地模拟部分与整体的关系,并保持空间感知能力,从而在计算机视觉(CV)任务中提高对视点变化的鲁棒性。
CapsNet 的核心元素是 "胶囊"。与标准神经元不同,每个 "胶囊 "检测输入区域内的特定实体,并输出一个向量。矢量的大小(长度)表示检测到的实体存在的概率,而其方向则代表实体的实例化参数,如精确的姿势或纹理细节。这种基于向量的输出与许多其他深度学习(DL)模型中典型的标量激活形成鲜明对比。
低层的胶囊利用转换矩阵对高层胶囊的输出进行预测。一种被称为 "协议路由 "的重要机制可以动态决定这些层之间的连接。如果多个低层胶囊对高层特征的存在和姿态的预测一致,相应的高层胶囊就会激活。这种动态路由过程使网络能够识别各个部分,并了解它们是如何组合成一个整体的,从而有效地保留了空间层次结构。论文"胶囊之间的动态路由"详细介绍了这一基本思想。这种方法有助于完成需要细致入微地了解物体组成的任务,从而提高性能,减少对大量数据增强的需求。
与广泛使用的 CNN 相比,CapsNets 提供了一种不同的模式,尤其是在处理空间数据和表示特征方面:
与传统的神经网络架构相比,CapsNets 具有多种潜在优势:
尽管 CapsNets 仍主要是一个活跃的研究领域,而且与已建立的模型(如 Ultralytics YOLO或 YOLO11等成熟模式相比,CapsNets 的应用还不普遍:
进一步的潜在应用包括改进物体检测(尤其是对杂乱场景的检测)、增强机器人技术中的场景理解,以及为自动驾驶汽车开发更强大的感知系统做出贡献。虽然计算需求仍然是一个挑战,但正在进行的研究旨在优化 CapsNet 的效率,使其适用于更广泛的机器学习 (ML)应用和潜在的集成框架,如 PyTorch或 TensorFlow.您可以探索不同物体检测模型之间的比较,以了解 CapsNet 在未来发展中的定位。