Регуляризация
Предотвратите переобучение и улучшите обобщающую способность модели с помощью методов регуляризации, таких как L1, L2, dropout и ранняя остановка. Узнайте больше!
Регуляризация - это важнейший набор стратегий в
машинного обучения (МОО), предназначенных для повышения
способность модели к обобщению на новые, неизвестные данные. Ее основная цель - предотвратить
оверфиттинга- распространенного явления, когда модель учится
шум и специфические детали
обучающих данных в ущерб своей производительности на
действительных исходных данных. Вводя дополнительную информацию или ограничения - часто в виде штрафного члена, добавляемого к
функции потерь - регуляризацияпрепятствует тому, чтобы модель
от чрезмерного усложнения. В результате получается более надежная система, которая сохраняет высокую
точность как на обучающих, так и на
как на обучающих, так и на проверочных данных.
Общие методы регуляризации
Существует несколько известных методов применения регуляризации, каждый из которых направлен на различные аспекты сложности модели
и динамики обучения:
-
Регуляризация L1 и L2: Это наиболее традиционные формы. Регуляризация L1 (Лассо) добавляет штраф, равный абсолютному значению
коэффициентов, что может свести некоторые веса к нулю, эффективно выполняя отбор признаков. Регуляризация L2
(Ridge), широко используемая в глубоком обучении (DL), добавляет
штраф, равный квадрату величины коэффициентов, поощряя меньшие, более диффузные
весов модели.
-
Выпадающий слой: Специально разработанный для
нейронных сетей (НС), выпадающий слой случайным образом
случайным образом деактивирует часть нейронов во время каждого шага обучения. Это заставляет сеть обучаться избыточным
представления и предотвращает зависимость от конкретных нейронных путей - концепция, подробно описанная в
оригинальной исследовательской работе по dropout.
-
Дополнение данных: Вместо того чтобы изменять архитектуру модели, эта техника расширяет обучающий набор путем создания модифицированных
версий существующих изображений или точек данных. Такие преобразования, как поворот, масштабирование и переворачивание, помогают модели
стать инвариантной к этим изменениям. Вы можете изучить
Методы расширения данныхYOLO , чтобы увидеть
как это применяется на практике.
-
Ранняя остановка: Этот практический подход предполагает мониторинг работы модели на проверочном множестве во время обучения. Если
потери при проверке перестают улучшаться или начинают расти, то
процесс обучения немедленно прекращается. Это предотвращает
Модель не сможет продолжить обучение шуму на более поздних этапах обучения.
-
Сглаживание этикеток: Эта техника корректирует целевые метки во время обучения таким образом, чтобы модель не была вынуждена предсказывать со 100-процентной
уверенности (например, вероятность 1,0). Смягчая целевые метки (например, до 0,9), сглаживание меток не позволяет сети
от излишней самоуверенности, что полезно для таких задач, как
классификация изображений.
Реализация регуляризации в Python
Современные библиотеки, такие как Ultralytics , позволяют легко применять эти техники с помощью аргументов обучения. На сайте
следующий пример демонстрирует, как обучить YOLO11 модель
с регуляризацией L2 (контролируется weight_decay) и отсева для обеспечения надежности модели.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model with specific regularization parameters
# 'weight_decay' applies L2 regularization
# 'dropout' applies a dropout layer with a 10% probability
results = model.train(data="coco8.yaml", epochs=50, weight_decay=0.0005, dropout=0.1)
Применение в реальном мире
Регуляризация незаменима при развертывании надежных систем искусственного интеллекта в различных отраслях.
-
Автономное вождение: На сайте
ИИ для автомобильных решений, компьютерное зрение
модели должны detect пешеходов и дорожные знаки при различных погодных условиях. Без регуляризации модель
может запомнить конкретные условия освещения из обучающего набора и потерпеть неудачу в реальном мире. Такие методы, как
затухание веса, обеспечивают хорошую обобщенность системы обнаружения в условиях
дождя, тумана или бликов.
-
Медицинская визуализация: При выполнении
При анализе медицинских изображений наборы данных часто
ограничены по размеру. В этом случае значительный риск представляет собой чрезмерная подгонка. Методы регуляризации, в частности
увеличение объема данных и ранняя остановка, помогают
модели, обученные detect аномалии на рентгеновских или магнитно-резонансных снимках, остаются точными на новых данных о пациентах, что способствует улучшению
диагностические результаты.
Регуляризация в сравнении со смежными понятиями
Полезно отличать регуляризацию от других терминов оптимизации и предварительной обработки:
-
Регуляризация и нормализация: Нормализация подразумевает приведение входных данных к стандартному диапазону для ускорения сходимости. Хотя такие методы, как
Пакетная нормализация может оказывать незначительный
небольшой эффект регуляризации, их основная цель - стабилизировать динамику обучения, в то время как регуляризация явно
наказывает за сложность.
-
Регуляризация против настройки гиперпараметров.
Настройка гиперпараметров: Параметры регуляризации (например, скорость отсева или L2-штраф) сами являются гиперпараметрами. Настройка гиперпараметров
Настройка гиперпараметров - это более широкий процесс поиска оптимальных значений для этих параметров, часто с помощью таких инструментов, как
Ultralytics Tuner.
-
Регуляризация против ансамблевого обучения: Методы ансамблевого обучения объединяют прогнозы нескольких моделей для уменьшения дисперсии и улучшения обобщения. Хотя
это достигает цели, схожей с регуляризацией, но при этом объединяет различные модели, а не ограничивает
обучение одной модели.