词汇表

随机梯度下降SGD)

了解随机梯度下降如何优化机器学习模型，从而为大型数据集和深度学习任务实现高效训练。

随机梯度下降算法SGD）是一种基石性的优化算法。机器学习（ML）和深度学习 (DL) 中大量使用的基石优化算法。它是模型训练的驱动力，通过迭代调整内部模型权重和偏置，以最小化由损失函数计算出的误差。损失函数计算出的误差最小化。与传统的梯度下降法是通过处理整个数据集来计算一次更新，而SGD 与传统的梯度下降法不同，SGD 每次只使用一个随机选取的训练实例来修改模型参数。这种 "随机 "或随机方法这种 "随机 "或随机方法使该算法具有计算效率和高度可扩展性，从而为大数据训练创造了一条可行的途径。在这种情况下，一次性处理整个数据集会占用大量内存。会占用大量内存。

随机梯度下降如何工作

训练神经网络的主要目标是在复杂的误差景观中找到代表最高精度的最低点。SGD 通过重复循环来实现。首先，它通过反向传播计算特定样本的梯度--误差增加最陡峭的方向。反向传播。然后反向更新权重，以减少误差。

这一步骤的大小由学习率控制。超参数调整时配置的临界值。由于SGD 使用由于 SGD 使用的是单个样本，因此通向最小值的路径是有噪声的、曲折的，而不是一条直线。这种噪声通常因为它能帮助模型摆脱局部最小值--非随机算法可能会卡住的次优解--从而找到更好的方法。卡住的次优解，从而找到更好的全局解。这个过程会重复许多或完整地通过数据集，直到模型收敛。模型收敛。读者可以在斯坦福 CS231n 优化中探索数学直觉。斯坦福 CS231n 优化笔记。

SGD 与其他优化算法的比较

了解SGD 与相关概念的区别，对于为训练数据选择正确的策略至关重要。训练数据的正确策略至关重要。

批量梯度下降法 这种方法每一步都使用整个数据集来计算梯度。虽然它能产生稳定的误差曲线，但对于大型数据集来说，速度极慢且计算成本高昂、但对于大型数据集来说，速度极慢，计算成本高昂。
小批量梯度下降法实际上在实践中，大多数SGD"实现框架，如 PyTorch等框架中的大多数 "SGD "实现实际上都使用了迷你批次。这种方法使用一小组样本（如 32 或 64 幅图像）更新参数。这种方法兼顾了 SGD 的计算效率和批处理的稳定性。 SGD 的稳定性。
Adam 优化器 Adam 算法对SGD 进行了扩展，为每个参数引入了自适应学习率。Adam 通常收敛得更快、在计算机视觉任务中，有动力的SGD 有时更受青睐，因为它能实现更好的泛化并避免过拟合。

实际应用

SGD 及其变体是各行各业训练现代人工智能系统的标准。

实时物体检测：在训练高性能模型（如 Ultralytics YOLO11等高性能模型进行优化器必须处理数据集中的数千张图像，如 COCO.SGD 允许模型快速学习边缘和物体形状等特征。随机性有助于模型很好地泛化，这对安全关键型应用至关重要，例如自动驾驶汽车在这对于自动驾驶汽车在不同天气条件下检测行人等对安全至关重要的应用来说至关重要。
自然语言处理 (NLP)：训练大型语言模型 (LLM)涉及包含数十亿单词的数据集。要一次性将所有这些数据加载到内存中是不可能的。SGD 可使模型学习语法、上下文和情感分析。这种效率为开发复杂的虚拟助手和翻译工具。

利用Ultralytics实施SGD

"(《世界人权宣言》) ultralytics 库允许用户在不同优化器之间轻松切换。AdamW 可能是某些任务的是某些任务的默认优化器，而SGD 通常用于微调或特定的研究要求。下面的代码段演示了如何显式选择SGD 来训练模型。

from ultralytics import YOLO

# Load the latest YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset using the SGD optimizer
# The 'lr0' argument sets the initial learning rate
results = model.train(data="coco8.yaml", epochs=50, optimizer="SGD", lr0=0.01)

这段代码初始化了一个 YOLO11 模式，并开始培训与 optimizer="SGD".如需进一步自定义，请参阅模型训练配置文件。框架，如 TensorFlow 和 Scikit-learn 还为各种机器学习任务提供了SGD 还为各种机器学习任务提供了强大的 SGD

随机梯度下降SGD)

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

随机梯度下降如何工作

SGD 与其他优化算法的比较

实际应用

利用Ultralytics实施SGD

阅读更多此类别的内容

未来物体检测趋势：需要关注的 7 个关键问题

利用Ultralytics YOLO 模型增强车辆再识别能力

利用Ultralytics YOLO 模型改进碰撞预测

加入Ultralytics 社区