BFloat16 (BF16)

Изучи BFloat16 (BF16) для глубокого обучения. Узнай, как этот 16-битный формат повышает скорость и эффективность обучения в таких моделях, как Ultralytics YOLO26.

BFloat16, или Brain Floating Point, — это 16-битный формат представления чисел, значительно оптимизированный для приложений машинного обучения. Первоначально разработанный командой Google Brain, он представляет собой специализированный подход к эффективной обработке массивных наборов весов моделей и градиентов. В отличие от стандартного 32-битного формата с плавающей запятой (FP32), математические свойства BFloat16 отводят 8 бит под экспоненту и 7 бит под мантиссу. Эта уникальная структура обеспечивает точно такой же динамический диапазон, как у FP32, но с пониженной точностью, эффективно сокращая вдвое требования к памяти для сложных архитектур глубокого обучения без ущерба для численной нестабильности, часто встречающейся в старых 16-битных форматах.

BFloat16 против Float16 (FP16): ключевые различия#

При сравнении форматов половинной точности различие между BF16 и стандартным FP16 (основанным на стандарте IEEE для арифметики с плавающей запятой) имеет решающее значение для AI-инженеров.

FP16 использует 5 бит для экспоненты и 10 бит для мантиссы. Эта структура дает FP16 большую числовую точность, но значительно более узкий динамический диапазон. Как следствие, рабочие процессы обучения FP16 часто требуют сложных методов масштабирования потерь для предотвращения потери градиента (underflow) — сценария, при котором крошечные обновления градиента становятся нулями. 8-битная экспонента BFloat16 решает эту проблему, соответствуя динамическому диапазону FP32. Это означает, что ты можешь легко внедрить BF16 в нейронные сети без настройки гиперпараметров или масштабирования потерь, что делает его предпочтительным форматом для стабилизации обучения массивных больших языковых моделей (LLM). Подробные числовые спецификации можно изучить на странице BFloat16 в Википедии.

Преимущества для обучения глубокому обучению#

Недавние исследования BFloat16 для обучения глубокому обучению подчеркивают, как он значительно ускоряет общий процесс обучения. Снижая пропускную способность памяти, необходимую для получения и хранения тензоров, BFloat16 позволяет практикам удваивать размеры пакетов (batch sizes) или масштабироваться до базовых моделей с миллиардами параметров на существующем оборудовании. Интересно, что небольшое снижение точности мантиссы действует как мягкий метод регуляризации во время обучения, что иногда может улучшить способность модели к обобщению на новых данных. В настоящее время это основа современных режимов смешанной точности.

Аппаратная совместимость и выполнение#

Чтобы полностью использовать преимущества скорости BFloat16, требуется выделенная аппаратная поддержка. Он достигает высокой производительности на Cloud TPU и аппаратно ускоряется на современных графических процессорах NVIDIA, начиная с архитектуры NVIDIA Ampere (таких как серия RTX 30, A100 и профессиональные рабочие карты, например RTX A6000), и заканчивая новыми поколениями NVIDIA Hopper и Blackwell.

Используя фреймворки с PyTorch Automatic Mixed Precision (AMP), ты можешь использовать torch.autocast для автоматической маршрутизации поддерживаемых математических операций через специализированные тензорные ядра BF16. Это максимизирует пропускную способность при минимизации задержки вывода.

Применение ИИ в реальном мире#

BFloat16 быстро становится отраслевым стандартом во многих областях:

Генеративный AI и LLM: Исследовательские организации, обучающие новейшие генеративные модели OpenAI или Claude от Anthropic, обучают передовые сети с использованием BFloat16. Кроме того, они используют BF16 для кэширования KV во время вывода. Этот формат имеет решающее значение для предотвращения исчерпания памяти в средах облачных вычислений при обслуживании миллионов одновременных запросов в чате.
Компьютерное зрение высокого разрешения: При обработке 4K видеопотоков или больших спутниковых снимков лимиты VRAM очень жесткие. Развертывая передовые архитектуры, такие как Ultralytics YOLO26, с использованием BFloat16, автоматизированные системы безопасности или производства могут достичь высокоскоростного обнаружения объектов на аппаратно ограниченных установках Edge AI, таких как устройства NVIDIA Jetson, сохраняя при этом строгие требования к точности.

Реализация BFloat16 с Ultralytics#

Пакет ultralytics, работающий на базе PyTorch, делает выполнение моделей в BFloat16 исключительно простым. Ниже приведен краткий пример, демонстрирующий, как загрузить модель и выполнить вывод внутри контекстного блока autocast BF16.

import torch
from ultralytics import YOLO

# Initialize the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Verify that the active GPU architecture supports BFloat16
if torch.cuda.is_available() and torch.cuda.is_bf16_supported():
    # Use PyTorch autocast to run inference purely in BFloat16
    with torch.autocast(device_type="cuda", dtype=torch.bfloat16):
        results = model.predict("https://ultralytics.com/images/bus.jpg")

        print("Inference completed successfully using BFloat16 precision.")

Для команд, стремящихся легко масштабировать эти оптимизации, платформа Ultralytics автоматически управляет форматами точности в сложных облачных конвейерах обучения, гарантируя пользователям максимально возможную скорость и точность без необходимости управления низкоуровневым аппаратным кодом.