探索 Capsule Networks (CapsNets):一种在空间层级和特征关系方面表现出色的突破性神经网络架构。
胶囊网络(CapsNets)代表了深度学习(DL)领域的一种复杂演进。 深度学习(DL)领域的复杂演进,旨在解决传统 传统 卷积神经网络(CNN)的特定局限性。这种架构由知名研究员Geoffrey Hinton及其同事首次提出。 Hinton 及其同事首次提出,这种架构将神经元组织成称为 "胶囊 "的群组。与标准神经元不同 不同,"胶囊 "输出的是一个向量。这种矢量方向和长度允许网络 网络能够编码更丰富的物体信息,如精确的位置、大小、方向和纹理。 这种功能使模型能够更好地理解特征之间的层次关系,本质上是 执行 "逆向图形 "来解构视觉场景。
CapsNet 的显著特点是能够保留物体不同部分之间的空间关系。 的空间关系。在使用 CNN 的标准 在使用 CNN 的标准计算机视觉 (CV)工作流程中,各层 层通常使用池化操作来降低维度,这通常会丢弃精确的空间数据以实现 不变性。然而,CapsNets 的目标是 "等差数列",即如果物体在图像中移动或旋转,胶囊的变化也会随之改变。 胶囊的矢量表示也会发生相应的变化,而不是变得无法识别。
这是通过一种称为 "动态路由 "或 "协议路由 "的过程实现的。而不是 而不是简单地将信号转发给下一层的所有神经元,低层神经元会将其输出发送给与其预测 "一致 "的高层神经元。 与预测 "一致 "的胶囊。例如,检测鼻子的胶囊会向脸部胶囊发出强烈信号。 如果空间方向一致,那么检测鼻子的胶囊就会向检测脸部的胶囊发出强烈信号,从而加强对特征提取过程的结构理解。 特征提取过程的结构理解。这一概念 在关于 胶囊之间的动态路由.
虽然这两种架构在 虽然这两种架构在机器学习(ML)中都举足轻重,但它们在处理可视化数据的方式上却大相径庭。 在处理视觉数据的方式上有很大不同:
尽管 CapsNets 的计算量很大,而且与优化的架构(例如 YOLO11但它们在特定的高风险 领域大有可为:
虽然 CapsNets 具有理论上的优势,但现代工业标准通常倾向于高度优化的 CNN 或
Transformer模型来提高速度。不过,您可以使用分类任务(CapsNets 的主要基准
CapsNets 的主要基准 ultralytics 库。下面的示例演示了在 MNIST 数据集上训练YOLO11
分类模型,MNIST 数据集是测试分层特征识别的常用平台。
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
对胶囊网络的研究将继续影响人工智能安全性和可解释性的发展。 人工智能的安全性和可解释性。通过明确建模 与某些深度网络的 "黑箱 "性质相比,胶囊网络提供了一条通往更易解释的人工智能之路。 一些深度网络的 "黑箱 "性质相比,它们提供了一条通往更可解释的人工智能之路。未来的进步可能集中在将这些概念整合到 三维物体检测和降低 路由算法的计算成本,有可能将 YOLO26 等模型的效率与强大的空间关系相结合。 YOLO26等模型的效率与胶囊强大的空间理解能力相结合。