Регуляризация
Предотвратите перебор и улучшите обобщение модели с помощью таких методов регуляризации, как L1, L2, отсев и ранняя остановка. Узнайте больше!
Регуляризация - это набор методов, используемых в машинном обучении (МОО) для предотвращения распространенной проблемы, известной как чрезмерная подгонка. При чрезмерной подгонке модель слишком хорошо изучает обучающие данные, включая шум и случайные колебания, что негативно сказывается на ее способности обобщать и делать точные прогнозы на новых, неизвестных данных. Регуляризация работает путем добавления штрафа за сложность модели к функции потерь, не позволяя модели изучать слишком сложные модели. Это помогает создать более простую и обобщенную модель, которая лучше работает как на обучающих, так и на проверочных данных.
Общие методы регуляризации
Существует несколько широко используемых методов регуляризации, которые помогают улучшить производительность и устойчивость модели:
- Регуляризация L1 и L2: Это наиболее распространенные формы регуляризации. Они добавляют штраф к функции потерь в зависимости от размера весов модели. Регуляризация L1 (Лассо) стремится сжать веса менее важных признаков до нуля, эффективно выполняя отбор признаков. Регуляризация L2 (Ridge или Weight Decay) заставляет веса быть маленькими, но редко равными нулю. Более глубокое погружение в математические различия можно найти в таких ресурсах, как заметки по курсу Stanford CS229.
- Выпадающий слой: Эта техника характерна для нейронных сетей. Во время обучения он случайным образом устанавливает часть активаций нейронов на ноль на каждом шаге обновления. Это не позволяет нейронам слишком сильно коадаптироваться и заставляет сеть изучать более надежные характеристики. Эта концепция была представлена в очень влиятельной научной статье.
- Дополнение данных: Искусственно увеличивая размер и разнообразие обучающих данных, увеличение данных помогает модели стать более инвариантной к незначительным изменениям. К распространенным методам относятся поворот, обрезка, масштабирование и изменение цвета изображений. Ultralytics предлагает встроенные методы увеличения данных YOLO для повышения устойчивости модели.
- Ранняя остановка: Это практический метод, при котором в процессе обучения отслеживается производительность модели на валидационном множестве. Процесс обучения останавливается, когда показатели валидации перестают улучшаться, что предотвращает перестройку модели в последующие эпохи. Практическое руководство по реализации ранней остановки доступно в документации PyTorch.
Применение в реальном мире
Регуляризация является основой для разработки эффективных моделей глубокого обучения (ГОО) в различных областях.
- Компьютерное зрение: В моделях обнаружения объектов, таких как Ultralytics YOLO, регуляризация имеет решающее значение для обобщения данных из таких наборов данных, как COCO, на реальные приложения. Например, в ИИ для автомобильных решений регуляризация L2 и отсев помогают детектору дорожных знаков надежно работать при различном освещении и погодных условиях, не позволяя ему запоминать конкретные примеры, увиденные во время обучения.
- Обработка естественного языка (NLP): Большие языковые модели (LLM) склонны к чрезмерной подгонке из-за огромного количества параметров. В таких приложениях, как машинный перевод, отсев используется в архитектурах трансформаторов для того, чтобы модель усваивала грамматические правила и семантические связи, а не просто запоминала конкретные пары предложений из обучающих данных.
Регуляризация в сравнении с другими концепциями
Важно отличать регуляризацию от других связанных с ней понятий в ML:
- Регуляризация и нормализация: Нормализация - это метод предварительной обработки данных, при котором входные признаки приводятся к стандартному диапазону (например, от 0 до 1). Она гарантирует, что ни один признак не будет доминировать в процессе обучения из-за своего масштаба. Регуляризация, напротив, представляет собой технику, которая ограничивает сложность модели в процессе обучения, чтобы предотвратить перебор. Хотя оба метода улучшают производительность модели, нормализация фокусируется на данных, а регуляризация - на самой модели. Пакетная нормализация - это техника послойной нормализации, которая также обеспечивает небольшой эффект регуляризации.
- Регуляризация и настройка гиперпараметров: Методы регуляризации имеют свои собственные гиперпараметры, такие как сила регуляризации (лямбда) в L1/L2 или коэффициент отсева. Настройка гиперпараметров - это процесс поиска оптимальных значений для этих параметров, часто автоматизированный с помощью таких инструментов, как класс Ultralytics Tuner. Короче говоря, вы используете настройку гиперпараметров, чтобы найти наилучший способ применения регуляризации. Такие платформы, как Ultralytics HUB, помогают управлять экспериментами, необходимыми для этого процесса.