敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Softmax

了解 Softmax 如何将得分转化为概率,从而为人工智能中的分类任务赋能,并推动图像识别和自然语言处理的成功应用。

Softmax 是一种数学函数,它将原始的实数值分数向量(通常称为 logits)转换为概率向量。在 机器学习(ML) 中,Softmax 主要用作 神经网络 输出层中的激活函数。它的关键作用是将网络的最终得分转换为多个互斥类别的有意义的概率分布。生成的概率总和为 1,可以很容易地解释为模型对每个可能结果的置信度。

Softmax 的工作原理

想象一个神经网络试图确定图像属于哪个类别。网络的最后一层会生成一组每个类别的原始分数。较高的分数表明模型更倾向于该类别,但这些分数未标准化,可能难以直接使用。

Softmax 函数接受这些分数并执行两个主要步骤:

  1. 它将指数函数应用于每个分数。这使得所有值都为正,并放大了它们之间的差异——较大的分数成比例地变得更大。
  2. 它通过将每个指数化得分除以它们的总和来对这些得分进行归一化。此步骤会缩小这些值,使它们加起来总和为 1.0,从而有效地创建一个概率分布

最终输出是一个概率列表,其中每个值代表模型预测的输入属于特定类别的可能性。然后选择具有最高概率的类别作为最终预测。

人工智能与机器学习应用

Softmax 是执行多类分类的任何深度学习模型的基础。它提供清晰的概率输出的能力使其在各个领域都非常宝贵。

  • Image Classification: This is the most common use case. A Convolutional Neural Network (CNN) trained on a dataset like ImageNet will use Softmax in its final layer. For an image of a pet, the model might output probabilities like {Dog: 0.9, Cat: 0.08, Rabbit: 0.02}, clearly indicating its prediction. Models like Ultralytics YOLO use this for classification tasks.
  • 自然语言处理 (NLP):语言建模中,Softmax 用于预测序列中的下一个词。像 Transformer 这样的模型会计算其词汇表中每个词的分数,并使用 Softmax 将这些分数转换为概率。这是大型语言模型 (LLM) 的核心组成部分,并为从机器翻译文本生成等应用提供支持。
  • 医学影像分析: 当分析医学扫描图像以对不同类型的组织进行分类或识别病理(例如,良性、恶性或健康)时,模型将使用 Softmax 为每个诊断分配一个概率,从而帮助临床医生做出更明智的决策。
  • 强化学习: 在基于策略的强化学习中,Softmax 可用于将不同动作的学习值转换为策略,该策略是智能体可以采取的可能动作的概率分布。

Softmax 与其他激活函数对比

区分 Softmax 与其他常见的激活函数非常重要,因为它们服务于不同的目的。

  • Sigmoid: Sigmoid 函数也输出介于 0 和 1 之间的值,但它用于二元分类(一个类与另一个类)或多标签分类,其中一个输入可以同时属于多个类。例如,一部电影可以同时被归类为“喜剧”和“动作”。相比之下,Softmax 用于多类分类,其中类是互斥的——手写数字必须是 7 8,但不能两者都是。
  • ReLU(修正线性单元): ReLU 及其变体(如Leaky ReLUSiLU)用于神经网络的隐藏层中。它们的主要作用是引入非线性,使模型能够学习数据中的复杂模式。它们不产生概率,也不用作分类的输出函数。
  • Tanh (双曲正切): Tanh将值压缩到-1到1之间的范围内。与ReLU类似,它用于隐藏层中,尤其是在较旧的循环神经网络 (RNN)架构中。它不适合为分类任务生成概率输出。

实际注意事项

Softmax 虽然功能强大,但对非常大的输入分数很敏感,这有时会导致数值不稳定(溢出或下溢)。为了解决这个问题,现代深度学习框架(如PyTorchTensorFlow)在后台实现了数值稳定的 Softmax 版本。

Softmax 几乎总是与特定的损失函数(称为交叉熵损失(Cross-Entropy Loss)或对数损失(Log Loss))在模型训练期间配对使用。这种组合对于训练多类分类器非常有效。理解 Softmax 的行为对于有效的模型训练和解释至关重要,这可以使用 Ultralytics HUB 等平台进行管理和跟踪,以简化实验和部署

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板