Scaling Laws
Изучи законы нейронного масштабирования и вычисления во время тестирования в ИИ. Узнай, как масштабирование ресурсов и оптимизация определяют такие модели, как новый Ultralytics YOLO26.
Эмпирические наблюдения нейронного масштабирования в области искусственного интеллекта показывают, что производительность модели предсказуемо улучшается по мере увеличения определенных ресурсов — таких как вычислительная мощность, размер набора данных и количество параметров. Эти степенные закономерности, популяризированные исследованиями таких организаций, как OpenAI и Google DeepMind, показывают, что увеличение ресурсов приводит к математически предсказуемому снижению кросс-энтропии. Понимание этих принципов позволяет исследователям и инженерам эффективно распределять многомиллионные бюджеты, точно рассчитывая, насколько большой должна быть нейронная сеть для достижения целевой точности перед началом масштабного процесса обучения.
Link to this sectionЭволюция масштабирования предварительного обучения#
Первоначальная формулировка этих правил, известная как законы масштабирования Каплана, представленная в 2020 году, установила, что производительность языковых моделей плавно масштабируется при увеличении вычислительных мощностей для обучения. Позднее эта концепция была уточнена в законах масштабирования Chinchilla в 2022 году, которые показали, что для оптимального обучения размер модели и объем обучающих данных должны масштабироваться в равных пропорциях. Например, если ты удваиваешь количество параметров модели, ты должен также удвоить количество обучающих токенов. Эта парадигма успешно направляла разработку современных больших языковых моделей (LLM), созданных с использованием таких фреймворков, как PyTorch и TensorFlow, гарантируя, что огромные кластеры GPU используются эффективно, не допуская переобучения и не расходуя вычисления впустую.
Link to this sectionСмена парадигмы: масштабирование вычислений во время тестирования#
В период между 2024 и 2025 годами, как отмечено в ежегодных отчетах о прогрессе в области ИИ, индустрия ИИ совершила массовый переход к масштабированию во время инференса. Поскольку предварительное обучение более крупных моделей начало давать меньшую отдачу и упираться в ограничения по доступности данных, исследователи обнаружили способ прямого масштабирования вычислений LLM во время тестирования. Предоставляя моделям больше вычислительной мощности во время инференса, можно значительно улучшить их возможности комплексного рассуждения.
Такие методы, как «цепочка рассуждений» (Chain-of-Thought, CoT) и выборка Best-of-N, позволяют моделям исследовать несколько путей перед ответом. Этот закон масштабирования во время тестирования, впервые примененный такими продвинутыми моделями, как OpenAI o1 и DeepSeek-R1, наряду с другими моделями продвинутого рассуждения, доказывает, что увеличение вычислительных мощностей на этапе прогнозирования может позволить гораздо меньшей и высокоэффективной архитектуре превзойти массивную устаревшую модель на строгих логических тестах.
Link to this sectionРеальные приложения#
Принципы масштабирования управляют разработкой далеко за пределами генерации текста, оказывая значительное влияние на современные пайплайны компьютерного зрения и обнаружения объектов.
- Распределение ресурсов для базовых моделей: Компании, разрабатывающие системы автономного вождения, полагаются на формулы масштабирования, чтобы точно рассчитать, сколько аннотированных изображений требуется для снижения частоты ошибок средней точности (mAP) до безопасных, готовых к промышленному использованию уровней. Используя платформу Ultralytics для совместной аннотации данных и облачного распределенного обучения, команды могут математически прогнозировать свои расходы перед развертыванием.
- Размер модели и развертывание на Edge-устройствах: Формулы масштабирования напрямую влияют на архитектурный дизайн современных моделей, таких как Ultralytics YOLO26. Предлагая единое семейство моделей, математически масштабируемых от Nano (n) до Extra Large (x), ты как разработчик можешь предсказуемо балансировать между строгими требованиями к точности и задержкой инференса, исходя из ограничений твоего конкретного edge-оборудования.
Link to this sectionПример кода: Масштабирование во время инференса в компьютерном зрении#
В компьютерном зрении ты можешь использовать практическую форму масштабирования во время тестирования под названием тестовая аугментация (TTA). Затрачивая дополнительные вычисления во время этапа прогнозирования для оценки нескольких аугментированных версий изображения, модель предсказуемо повышает уверенность в обнаружении, повторяя методы поиска рассуждений, наблюдаемые в продвинутых LLM.
from ultralytics import YOLO
# Load the recommended YOLO26 model (nano version for high speed)
model = YOLO("yolo26n.pt")
# Perform standard inference (faster, lower test-time compute)
results_standard = model("https://ultralytics.com/images/bus.jpg")
# Perform inference-time scaling via Test-Time Augmentation (TTA)
# Predictably improves accuracy by utilizing more compute during prediction
results_tta = model("https://ultralytics.com/images/bus.jpg", augment=True)
print(f"Standard detections: {len(results_standard[0].boxes)}")
print(f"Scaled TTA detections: {len(results_tta[0].boxes)}")Link to this sectionЗаконы масштабирования в сравнении с похожими концепциями#
Хотя правила масштабирования ИИ тесно связаны с возможностями оборудования, они в первую очередь измеряют программную и алгоритмическую эффективность по отношению к этому оборудованию.
- Законы масштабирования в сравнении с законом Мура: Закон Мура — это давнее наблюдение за аппаратным обеспечением, согласно которому количество транзисторов на микрочипе удваивается примерно каждые два года. В отличие от него, масштабирование ИИ математически отслеживает, как меняются реальные возможности модели при доступе к этому расширяющемуся пулу аппаратных ресурсов.
- Масштабирование обучения в сравнении с масштабированием инференса: Формулы обучения рассчитывают наиболее оптимальное с точки зрения вычислений сочетание параметров и данных во время начального создания модели. Масштабирование инференса, напротив, измеряет, как динамические затраты дополнительных вычислительных мощностей на этапы поиска и проверки непосредственно перед генерацией ответа улучшают конечный результат без необходимости повторного обучения.






