Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Софтмакс

Узнайте, как Softmax преобразует оценки в вероятности для задач классификации в ИИ, обеспечивая успех в распознавании изображений и NLP.

Softmax — это математическая функция, которая преобразует вектор необработанных, вещественных оценок, часто называемых логитами, в вектор вероятностей. В контексте машинного обучения (ML) Softmax в основном используется в качестве функции активации в выходном слое нейронной сети. Его ключевая роль заключается в преобразовании окончательных оценок сети в значимое распределение вероятностей по нескольким, взаимоисключающим классам. Результирующие вероятности в сумме составляют единицу, что позволяет легко интерпретировать их как уверенность модели для каждого возможного исхода.

Как работает функция Softmax

Представьте себе нейронную сеть, пытающуюся решить, к какой категории относится изображение. Последний слой сети выдает набор необработанных оценок для каждой категории. Более высокая оценка предполагает, что модель больше склоняется к этой категории, но эти оценки не стандартизированы и с ними может быть сложно работать напрямую.

Функция Softmax принимает эти оценки и выполняет два основных шага:

  1. Он применяет экспоненциальную функцию к каждой оценке. Это делает все значения положительными и преувеличивает различия между ними — более крупные оценки становятся пропорционально намного больше.
  2. Он нормализует эти экспоненциальные оценки, разделяя каждую из них на их сумму. Этот шаг масштабирует значения вниз, так что в сумме они составляют 1.0, эффективно создавая распределение вероятностей.

Конечным результатом является список вероятностей, где каждое значение представляет собой прогнозируемую моделью вероятность того, что входные данные принадлежат к определенному классу. Класс с наивысшей вероятностью затем выбирается в качестве окончательного прогноза.

Приложения в области ИИ и машинного обучения

Softmax является основой любой модели глубокого обучения, которая выполняет многоклассовую классификацию. Его способность предоставлять четкий, вероятностный вывод делает его бесценным в различных областях.

Softmax против других функций активации

Важно отличать Softmax от других распространенных функций активации, поскольку они служат разным целям.

  • Сигмоида: Функция Sigmoid также выводит значения между 0 и 1, но она используется для бинарной классификации (один класс против другого) или многоклассовой классификации, где вход может принадлежать к нескольким классам одновременно. Например, фильм можно классифицировать как "Комедия" и "Боевик". В отличие от этого, Softmax предназначен для многоклассовой классификации, где классы являются взаимоисключающими — рукописная цифра должна быть 7 или 8, но не обе.
  • ReLU (Rectified Linear Unit): ReLU и его варианты, такие как Leaky ReLU и SiLU, используются в скрытых слоях нейронной сети. Их основная задача — внести нелинейность, позволяющую модели изучать сложные закономерности в данных. Они не производят вероятности и не используются в качестве выходных функций для классификации.
  • Tanh (Гиперболический тангенс): Tanh сжимает значения в диапазон от -1 до 1. Как и ReLU, он используется в скрытых слоях, особенно в старых архитектурах Рекуррентных нейронных сетей (RNN). Он не подходит для получения вероятностных выходных данных для задач классификации.

Практические соображения

Несмотря на свою мощность, Softmax может быть чувствителен к очень большим входным значениям, что иногда может приводить к числовой нестабильности (переполнению или исчезновению порядка). Чтобы решить эту проблему, современные платформы глубокого обучения, такие как PyTorch и TensorFlow, реализуют численно стабильные версии Softmax за кулисами.

Softmax почти всегда сочетается с определенной функцией потерь, называемой Cross-Entropy Loss (или Log Loss), во время обучения модели. Эта комбинация очень эффективна для обучения многоклассовых классификаторов. Понимание поведения Softmax имеет решающее значение для эффективного обучения и интерпретации модели, которыми можно управлять и отслеживать с помощью таких платформ, как Ultralytics HUB, для оптимизации экспериментов и развертываний.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена