Глоссарий

Смешанная точность

Повысь эффективность глубокого обучения с помощью тренировок со смешанной точностью! Достигни более высокой скорости, уменьши потребление памяти и сэкономь энергию, не жертвуя точностью.

Обучение со смешанной точностью - это техника, используемая в глубоком обучении (ГОО) для ускорения обучения моделей и снижения потребления памяти без существенного влияния на точность модели. Она достигается за счет стратегического использования комбинации различных форматов точности для хранения и вычисления значений в нейронной сети (НС). Обычно это подразумевает использование стандартного 32-битного формата с плавающей точкой (FP32 или single-precision) для критически важных частей, таких как хранение весов модели, в то время как для вычислений во время прямого и обратного проходов(backpropagation) используются более быстрые и менее требовательные к памяти 16-битные форматы с плавающей точкой (FP16 или half-precision, а иногда BF16 или BFloat16).

Как работает смешанная точность

Основная идея смешанной точности заключается в том, чтобы использовать преимущества скорости и памяти форматов с более низкой точностью и при этом снизить потенциальные проблемы с численной стабильностью. Общий подход включает в себя следующие шаги:

Поддерживай мастер-весы в FP32: первичная копия весов модели хранится в стандартном формате FP32, чтобы обеспечить высокую точность обновления весов.
Используй FP16/BF16 для вычислений: Во время цикла обучения веса FP32 преобразуются в FP16 или BF16 для прямого и обратного проходов. Вычисления с использованием этих форматов с более низкой точностью значительно быстрее на современном оборудовании, например на графических процессорахNVIDIA , оснащенных Tensor ядрами, которые специально разработаны для ускорения матричных умножений с более низкой точностью.
Масштабирование с потерями: При использовании FP16 диапазон представимых чисел гораздо меньше, чем у FP32. Это может привести к тому, что небольшие значения градиента, вычисленные во время обратного распространения, станут нулевыми (underflow), что помешает обучению. Чтобы предотвратить это, значение потерь масштабируется перед обратным распространением, эффективно увеличивая градиенты в диапазон, представимый FP16. Перед обновлением веса эти градиенты снова уменьшаются. BF16, обладая более широким динамическим диапазоном, чем FP32, но меньшей точностью, часто позволяет избежать необходимости масштабирования потерь.
Обнови мастер-весы: Вычисленные градиенты (уменьшенные, если использовалось масштабирование потерь) используются для обновления мастер-копии весов, которые остаются в FP32.

Такой тщательный баланс позволяет моделям обучаться быстрее и использовать меньше GPU памяти.

Преимущества смешанной точности

Более быстрое обучение: Вычисления с низкой точностью (FP16/BF16) выполняются гораздо быстрее на совместимом оборудовании, что значительно сокращает время, необходимое для каждой эпохи обучения. Это позволяет быстрее проводить итерации и эксперименты.
Уменьшенное потребление памяти: Значения FP16/BF16 требуют вдвое меньше памяти, чем значения FP32. Это уменьшение относится к активациям, хранящимся во время прямого прохода, и градиентам, вычисляемым во время обратного прохода. Меньшее потребление памяти позволяет обучать более крупные модели или использовать большие объемы партий, что может улучшить производительность модели и стабильность обучения.
Повышение эффективности: Сочетание более быстрых вычислений и меньших требований к пропускной способности памяти приводит к более эффективному использованию аппаратных ресурсов, что потенциально снижает стоимость обучения для облачных вычислений или локальных кластеров.