Глоссарий

Размер партии

Узнай, как размер пакета влияет на глубокое обучение. Эффективно оптимизируй скорость обучения, использование памяти и производительность модели.

В машинном обучении, особенно при обучении моделей глубокого обучения, под размером партии понимается количество обучающих примеров, обрабатываемых за одну итерацию. Обучение больших моделей на массивных наборах данных, распространенное в таких областях, как компьютерное зрение, часто делает обработку всего набора данных за один раз вычислительно невыполнимой из-за ограничений памяти. Вместо этого данные делятся на более мелкие, управляемые группы или "партии". Внутренние параметры модели обновляются после обработки каждой партии, что делает процесс обучения более эффективным и масштабируемым.

Важность размера партии

Размер партии - это критический гиперпараметр, который существенно влияет на динамику обучения, использование ресурсов и, в конечном итоге, на производительность конечной модели. Его эффекты включают в себя:

Скорость обучения: Большие объемы партий могут более эффективно использовать возможности параллельной обработки аппаратного обеспечения, например графических процессоров, потенциально сокращая время, необходимое для завершения одной эпохи (полного прохода по обучающим данным). Это происходит за счет более эффективного использования оборудования и меньшего количества обновлений параметров за эпоху. Узнай больше о концепциях параллельных вычислений.
Использование памяти: Размер партии напрямую влияет на объем необходимой памятиCPU RAM или GPU VRAM). Большим партиям требуется больше памяти для хранения данных, активаций и градиентов во время обучения. Техники оптимизации использования памяти очень важны при работе с большими объемами партий или ограниченным аппаратным обеспечением.
Обобщение модели: Выбор размера партии влияет на процесс оптимизации и обобщение модели. Меньшие партии вносят больше шума в оценку градиента, используемую в таких алгоритмах, как стохастический градиентный спуск (SGD). Этот шум иногда может выступать в качестве регуляризации, помогая модели избегать резких локальных минимумов и потенциально улучшая ее способность обобщать данные, тем самым уменьшая перебор. И наоборот, большие партии дают более точную оценку общего градиента набора данных, но могут сходиться к более резким минимумам, что иногда мешает обобщению, о чем говорится в таких исследованиях, как"On Large-Batch Training for Deep Learning".
Взаимодействие скорости обучения: Размер партии часто взаимодействует со скоростью обучения. Как правило, большие размеры партии позволяют и часто выигрывают от более высокой скорости обучения. Оптимизаторы вроде Адама могут помочь справиться с этим взаимодействием.

Выбор правильного размера партии

Выбор оптимального размера пакета включает в себя баланс между вычислительной эффективностью, ограничениями памяти и обобщенностью модели. Универсального "лучшего" размера партии не существует; он сильно зависит от конкретного набора данных (например, COCO Dataset), архитектуры модели (как в Ultralytics YOLO) и доступных аппаратных ресурсов. Общий выбор часто находится в пределах 2 (например, 16, 32, 64, 128) из-за оптимизации выравнивания памяти в аппаратной части. Обычно требуются эксперименты и такие техники, как настройка гиперпараметров. Такие фреймворки, как PyTorch и TensorFlow обеспечивают гибкость в настройке размеров партии.