探索胶囊网络(CapsNets):一种开创性的神经网络架构,擅长空间层次和特征关系。
胶囊网络(通常缩写为 CapsNets)是一种神经网络(NN)架构,旨在克服卷积神经网络(CNN)的一些主要局限性。CapsNets 由 Geoffrey Hinton 及其团队提出,旨在更好地识别图像中特征之间的层次关系。标准 CNN 中的神经元输出的是单一标量值,而 CapsNet 中的 "胶囊 "输出的是矢量,这使得它们能够编码有关物体属性的更详细信息,如物体的姿态(位置、大小、方向)、变形和纹理。这种结构使它们对视角和方向的变化具有固有的鲁棒性。
CapsNets 的核心创新在于其保留特征之间空间层次的能力。虽然CNN可以识别人脸的组成部分,如嘴巴、鼻子和眼睛,但并不能明确理解它们之间的空间关系。而 CapsNets 则使用称为 "胶囊 "的神经元组来识别这些部分及其相对方向。这是通过一种名为 "动态路由 "的过程实现的,在这个过程中,较低级别的 "胶囊 "将它们的输出发送到能够最好地解释它们的发现的较高级别的 "胶囊"。这种方法与 CNN 中的汇集层有着本质区别,后者通常会丢弃重要的空间信息。最初的概念详见论文《胶囊之间的动态路由》。
CapsNets 和 CNN 的主要区别在于它们如何处理空间信息和抽象。
Ultralytics YOLO等模型针对实际计算机视觉(CV)任务的速度和准确性进行了高度优化,而 CapsNets 则代表了另一种架构理念,其重点在于提高对视觉场景的基本理解。您可以探索不同物体检测模型之间的比较,以了解当前的状况。
尽管 CapsNets 仍主要是一个活跃的研究领域,而且与YOLO11 等成熟模型相比,其部署并不普遍,但它们已在多个领域展现出前景:
进一步的潜在应用包括改进物体检测(尤其是对杂乱场景的检测)、增强机器人技术中的场景理解,以及为自动驾驶汽车开发更强大的感知系统做出贡献。虽然计算需求仍然是一个挑战,但正在进行的研究旨在优化 CapsNet 的效率,使其适用于更广泛的机器学习 (ML)应用,并有可能集成到PyTorch或TensorFlow 等框架中。