深圳Yolo 视觉
深圳
立即加入
词汇表

胶囊网络(CapsNet)

探索 Capsule Networks (CapsNets):一种在空间层级和特征关系方面表现出色的突破性神经网络架构。

胶囊网络(CapsNets)代表了深度学习(DL)领域的一种复杂演进。 深度学习(DL)领域的复杂演进,旨在解决传统 传统 卷积神经网络(CNN)的特定局限性。这种架构由知名研究员Geoffrey Hinton及其同事首次提出。 Hinton 及其同事首次提出,这种架构将神经元组织成称为 "胶囊 "的群组。与标准神经元不同 不同,"胶囊 "输出的是一个向量。这种矢量方向和长度允许网络 网络能够编码更丰富的物体信息,如精确的位置、大小、方向和纹理。 这种功能使模型能够更好地理解特征之间的层次关系,本质上是 执行 "逆向图形 "来解构视觉场景。

了解核心机制

CapsNet 的显著特点是能够保留物体不同部分之间的空间关系。 的空间关系。在使用 CNN 的标准 在使用 CNN 的标准计算机视觉 (CV)工作流程中,各层 层通常使用池化操作来降低维度,这通常会丢弃精确的空间数据以实现 不变性。然而,CapsNets 的目标是 "等差数列",即如果物体在图像中移动或旋转,胶囊的变化也会随之改变。 胶囊的矢量表示也会发生相应的变化,而不是变得无法识别。

这是通过一种称为 "动态路由 "或 "协议路由 "的过程实现的。而不是 而不是简单地将信号转发给下一层的所有神经元,低层神经元会将其输出发送给与其预测 "一致 "的高层神经元。 与预测 "一致 "的胶囊。例如,检测鼻子的胶囊会向脸部胶囊发出强烈信号。 如果空间方向一致,那么检测鼻子的胶囊就会向检测脸部的胶囊发出强烈信号,从而加强对特征提取过程的结构理解。 特征提取过程的结构理解。这一概念 在关于 胶囊之间的动态路由.

区分 CapsNets 和 CNNs

虽然这两种架构在 虽然这两种架构在机器学习(ML)中都举足轻重,但它们在处理可视化数据的方式上却大相径庭。 在处理视觉数据的方式上有很大不同:

  • 标量与矢量输出:CNN 神经元提供标量值,表示特征的存在。 CapsNets 使用向量输出来表示实体的存在及其属性姿势估计、变形、色调)。
  • 池化与路由CNN 利用 池化层(如最大 池化)来实现平移不变性,但往往会丢失位置细节。CapsNets 使用动态路由来 保留空间层次结构,这使得它们在执行以下任务时可能更加有效 姿势估计
  • 数据效率:由于 CapsNets 在内部对视点变化进行编码,因此与传统的 与传统模型相比 模型通常需要大量的 数据来学习旋转或仿射 变换。

实际应用

尽管 CapsNets 的计算量很大,而且与优化的架构(例如 YOLO11但它们在特定的高风险 领域大有可为:

  1. 医学图像分析:处理空间层次结构的能力使 CapsNets 在医学图像分析方面具有重要价值。 医学图像分析。例如 研究人员将其应用于 脑肿瘤分割,在这种情况下 在这种情况下,将肿瘤的精确形状和方向与周围组织区分开来对于准确诊断至关重要。
  2. 手写数字识别:CapsNets 在 MNIST 数据集上取得了最先进的性能。 MNIST 数据集上取得了一流的性能。 特别是在涉及数字重叠的情况下,标准 图像分类模型可能难以 分辨特征。

具体实施

虽然 CapsNets 具有理论上的优势,但现代工业标准通常倾向于高度优化的 CNN 或 Transformer模型来提高速度。不过,您可以使用分类任务(CapsNets 的主要基准 CapsNets 的主要基准 ultralytics 库。下面的示例演示了在 MNIST 数据集上训练YOLO11 分类模型,MNIST 数据集是测试分层特征识别的常用平台。

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

未来展望

对胶囊网络的研究将继续影响人工智能安全性和可解释性的发展。 人工智能的安全性和可解释性。通过明确建模 与某些深度网络的 "黑箱 "性质相比,胶囊网络提供了一条通往更易解释的人工智能之路。 一些深度网络的 "黑箱 "性质相比,它们提供了一条通往更可解释的人工智能之路。未来的进步可能集中在将这些概念整合到 三维物体检测和降低 路由算法的计算成本,有可能将 YOLO26 等模型的效率与强大的空间关系相结合。 YOLO26等模型的效率与胶囊强大的空间理解能力相结合。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入