Model Weights

了解模型权重如何作为 AI 的知识。探索 Ultralytics YOLO26 如何使用优化权重实现更快、更准确的训练和推理。

模型权重是机器学习模型中可学习的参数，用于将输入数据转换为预测输出。在神经网络中，这些权重代表了不同层神经元之间连接的强度。当模型初始化时，这些权重通常被设置为随机的小数值，这意味着模型此时“一无所知”。通过一个称为训练的过程，模型会根据自身产生的误差迭代调整这些权重，从而逐渐学会识别数据中的模式、特征和关系。你可以将模型权重看作人工智能的“记忆”或“知识”；它们存储了系统从训练数据中学到的内容。

Link to this section权重在学习中的作用#

训练神经网络的主要目标是找到一组最优的模型权重，使模型预测结果与真实标签之间的误差最小化。这个过程涉及将数据传入网络（这一步称为前向传播），然后使用特定的损失函数计算损失值。如果预测不正确，优化算法（如 Stochastic Gradient Descent (SGD) 或 YOLO26 中使用的新型 Muon 优化器）会计算每个权重对误差的影响程度。

通过一种称为反向传播的技术，算法会微调权重以减少下一次的误差。这个循环会重复数千或数百万次，直到模型权重趋于稳定，系统达到高精度。训练完成后，权重会被“冻结”并保存下来，从而让模型能够部署到推理任务中，处理全新的、未见过的输入数据。

Link to this section模型权重与偏置的区别#

区分权重和偏置非常重要，因为它们协同工作但用途各异。模型权重决定了神经元之间连接的强度和方向（控制激活函数的斜率），而偏置则允许激活函数向左或向右平移。这种偏移确保了即使所有输入特征都为零，模型也能更好地拟合数据。权重和偏置共同构成了可学习参数，定义了卷积神经网络 (CNNs) 等架构的行为。

Link to this section实际应用#

模型权重是使人工智能系统在各行各业中发挥作用的核心组件。以下是它们如何应用的两个具体例子：

零售业的计算机视觉： 在智能超市系统中，像 YOLO26 这样的模型使用其训练好的权重来识别货架上的产品。这些权重已经“学会”了视觉特征——例如麦片盒的形状或汽水罐的颜色——使系统能够高效地检测商品、管理库存，甚至促进自动化结账流程。
医学图像分析： 在医疗领域，深度学习模型利用专门的权重来分析 X 光片或 MRI 扫描结果。例如，一个经过训练用于肿瘤检测的模型，会利用其权重来区分健康组织和潜在的异常病灶。这些权重能够捕捉到像素数据中肉眼难以察觉的复杂非线性模式，从而协助放射科医生更快地做出诊断。

Link to this section保存与加载权重#

在实践中，使用模型权重涉及将训练好的参数保存到文件中，以便稍后加载进行预测或微调。在 Ultralytics 生态系统中，这些通常以 .pt (PyTorch) 文件的形式存储。

以下是一个简单的示例，展示了如何将预训练权重加载到 YOLO 模型中并运行预测：

from ultralytics import YOLO

# Load a model with pre-trained weights (e.g., YOLO26n)
model = YOLO("yolo26n.pt")

# Run inference on an image using the loaded weights
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

Link to this section迁移学习与微调#

模型权重最强大的方面之一就是其可移植性。开发者通常不需要从零开始训练模型（这需要海量数据集和巨大的计算能力），而是使用迁移学习。这包括采用一个在如 COCO 或 ImageNet 等大型数据集上预训练好权重的模型，并将其适配到特定的任务中。

例如，你可以采用一个通用目标检测器的权重，并在一个较小的太阳能电池板数据集上对其进行微调。由于预训练权重已经理解了边缘、形状和纹理，模型收敛速度会快得多，并且需要的标注数据更少。像 Ultralytics Platform 这样的工具简化了这一过程，使团队能够轻松管理数据集、在云端训练模型并将优化后的权重无缝部署到边缘设备上。

Link to this section压缩与优化#

现代人工智能研究通常致力于在不牺牲性能的情况下减小模型权重的文件大小，这一过程被称为模型量化。通过降低权重的精度（例如，从 32 位浮点数转换为 8 位整数），开发者可以显著减少内存使用并提高推理速度。这对于在资源受限的硬件（如手机或 Raspberry Pi 设备）上部署模型至关重要。此外，像剪枝这样的技术可以移除对输出贡献微小的权重，进一步精简模型以适应实时应用。