Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Tanh (Гиперболический тангенс)

Откройте для себя возможности функции активации Tanh в нейронных сетях. Узнайте, как она позволяет AI моделировать сложные данные с эффективностью, ориентированной на ноль!

Tanh (гиперболический тангенс) — широко используемая функция активации в нейронных сетях. Это математическая функция, которая сжимает входные значения в диапазон от -1 до 1. Визуально она создает S-образную кривую, похожую на сигмоидную функцию. Ее ключевой особенностью является то, что ее выход центрирован относительно нуля, то есть отрицательные входы отображаются на отрицательные выходы, а положительные входы — на положительные выходы. Это свойство может помочь ускорить сходимость алгоритмов оптимизации, таких как градиентный спуск, в процессе обучения модели.

Как работает Tanh

В модели глубокого обучения функция активации решает, следует ли активировать нейрон или нет, вычисляя взвешенную сумму и дополнительно добавляя к ней смещение. Функция Tanh принимает любое вещественное число и отображает его в диапазон [-1, 1]. Большие положительные значения отображаются близко к 1, большие отрицательные значения отображаются близко к -1, а значения, близкие к нулю, отображаются в значения, близкие к нулю. Эта центрированность относительно нуля является значительным преимуществом, поскольку помогает предотвратить слишком сильное смещение выходов слоев в одном направлении, что может сделать обучение более стабильным. Для получения подробного технического объяснения ресурсы из таких учреждений, как Stanford, предлагают подробные конспекты лекций по функциям активации.

Сравнение с другими функциями активации

Tanh часто сравнивают с другими функциями активации, каждая из которых имеет свои сильные и слабые стороны:

  • Tanh против Sigmoid: Обе функции имеют схожую S-образную форму. Однако функция Sigmoid выводит значения в диапазоне, а Tanh выводит значения в [-1, 1]. Поскольку выходные данные Tanh центрированы относительно нуля, его часто предпочитают Sigmoid в скрытых слоях сети, так как это способствует более быстрой сходимости.
  • Tanh против ReLU: ReLU и его варианты, такие как Leaky ReLU и SiLU, стали выбором по умолчанию во многих современных архитектурах компьютерного зрения. В отличие от Tanh, ReLU не является вычислительно затратным и помогает смягчить проблему исчезающего градиента, когда градиенты становятся чрезвычайно малыми во время обратного распространения. Однако Tanh по-прежнему ценен в конкретных контекстах, где требуется ограниченный вывод. Вы можете увидеть использование современных функций активации в таких моделях, как Ultralytics YOLO11.

Применение в AI и машинном обучении

Tanh исторически был популярным выбором, особенно в:

  • Рекуррентные нейронные сети (RNN): Tanh обычно использовался в скрытых состояниях RNN и таких вариантах, как сети Long Short-Term Memory (LSTM), особенно для задач в области обработки естественного языка (NLP). Его ограниченный диапазон помогает регулировать поток информации внутри рекуррентных соединений. Подробнее см. в разделе Understanding LSTMs.
  • Анализ тональности: В более старых моделях NLP Tanh помогал сопоставлять признаки, извлеченные из текста (например, векторные представления слов, обработанные RNN), с непрерывным диапазоном, представляющим полярность настроения от отрицательного (-1) до положительного (+1). Вы можете найти соответствующие наборы данных для анализа тональности на таких платформах, как Kaggle.
  • Системы управления и робототехника: В обучении с подкреплением (RL) Tanh иногда используется в качестве конечной функции активации для политик, которые выводят непрерывные действия, ограниченные определенным диапазоном (например, управление крутящим моментом двигателя в диапазоне от -1 до +1). Фреймворки, такие как Gymnasium (ранее OpenAI Gym), часто используются в исследованиях RL.
  • Скрытые слои: Может использоваться в скрытых слоях нейронных сетей прямого распространения, хотя варианты ReLU сейчас более распространены. Может быть выбран, когда свойство центрирования относительно нуля особенно выгодно для конкретной задачи или архитектуры. Вы можете изучить производительность различных архитектур на наших страницах сравнения моделей.

Хотя современные архитектуры, такие как Ultralytics YOLO, часто используют такие функции, как SiLU, для таких задач, как обнаружение объектов, понимание Tanh остается ценным. Это обеспечивает контекст для эволюции функций активации и все еще может появляться в конкретных конструкциях сетей или устаревших системах. Фреймворки, такие как PyTorch и TensorFlow, предоставляют стандартные реализации Tanh. Вы можете обучать и экспериментировать с различными функциями активации, используя платформы, такие как Ultralytics HUB. Веб-сайт Papers with Code также содержит исследования, в которых используется Tanh.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена