Глоссарий

Выпадающий слой

Узнайте, как выпадающие слои предотвращают чрезмерную подгонку нейронных сетей, улучшая обобщение, устойчивость и производительность модели.

Выпадающий слой - это мощная, но простая техника регуляризации, используемая в нейронных сетях (НС) для борьбы с переподгонкой. Переподгонка происходит, когда модель слишком хорошо усваивает обучающие данные, включая шумы и идиосинкразии, что вредит ее способности к обобщению на новые, невидимые данные. Основная идея отсева, представленная Джеффри Хинтоном и его коллегами в новаторской работе 2014 года, заключается в случайном "отсеве" (или временном удалении нейронов и их связей) на каждом шаге обучения. Это предотвращает чрезмерную зависимость нейронов друг от друга, заставляя сеть обучаться более надежным и избыточным представлениям.

Как работает выпадающий слой

В процессе обучения модели выпадающий слой случайным образом устанавливает активацию части нейронов предыдущего слоя на ноль. Коэффициент отсева" - это гиперпараметр, определяющий вероятность того, что нейрон будет отсеян. Например, коэффициент отсева 0,5 означает, что каждый нейрон с вероятностью 50 % будет проигнорирован во время данной итерации обучения. Этот процесс можно представить как обучение большого количества разреженных сетей с общими весами.

Постоянно изменяя архитектуру сети, отсев предотвращает сложные коадаптации, когда выход нейрона сильно зависит от присутствия нескольких конкретных других нейронов. Вместо этого каждый нейрон поощряется к тому, чтобы быть более независимым детектором признаков. На этапе тестирования или вывода из результатов слой отсева отключается, и используются все нейроны. Чтобы компенсировать тот факт, что активны больше нейронов, чем во время обучения, выходы слоя уменьшаются на коэффициент отсева. Таким образом, ожидаемый выход каждого нейрона остается неизменным между обучением и тестированием. Такие фреймворки, как PyTorch и TensorFlow, обрабатывают это масштабирование автоматически в своих реализациях выпадающих слоев.

Применение в реальном мире

Dropout широко используется в различных областях искусственного интеллекта (AI) и машинного обучения (ML):

  1. Компьютерное зрение: В компьютерном зрении (КВ) отсев помогает моделям, подобным Ultralytics YOLO, лучше справляться с такими задачами, как обнаружение объектов, классификация изображений и сегментация экземпляров. Например, в системах автономного вождения отсев позволяет сделать модели обнаружения более устойчивыми к изменениям освещения, погоды или окклюзии, повышая безопасность и надежность. Эффективно управлять обучением таких моделей можно с помощью таких платформ, как Ultralytics HUB.
  2. Обработка естественного языка (NLP): Выпадение часто применяется в таких моделях НЛП, как трансформеры и BERT. В таких приложениях, как машинный перевод или анализ настроения, отсев предотвращает запоминание моделью определенных фраз или структур предложений из обучающих данных. Это приводит к лучшему пониманию и генерации нового текста, повышая производительность чат-ботов и инструментов обобщения текста.

Связанные понятия и различия

Dropout - одна из нескольких техник, используемых для регуляризации в глубоком обучении. Другие включают:

  • Регуляризация L1 и L2: Эти методы добавляют штраф к функции потерь в зависимости от величины весов модели, поощряя меньшие веса для снижения сложности модели. Вы можете прочитать больше о регуляризации L1/L2. В отличие от этого, отсев непосредственно изменяет структуру сети в процессе обучения, а не просто накладывает штраф на веса.
  • Пакетная нормализация: Пакетная нормализация (BN) нормализует активации в слое, что может стабилизировать обучение и иногда обеспечить мягкий регуляризирующий эффект, потенциально уменьшая необходимость в сильном отсеве. В то время как BN решает проблему внутреннего смещения ковариаций, Dropout непосредственно направлена на сложность модели, вынуждая ее к избыточности.
  • Дополнение данных: Такие приемы, как поворот, масштабирование или обрезка изображений(увеличение данных), искусственно увеличивают разнообразие обучающего набора данных. Это также помогает предотвратить чрезмерную подгонку и улучшить обобщение. Для достижения еще более надежных результатов отсев и увеличение данных часто используются вместе.

В целом, Dropout Layer - это простая, но мощная техника регуляризации, необходимая для обучения надежных моделей глубокого обучения в различных приложениях, от компьютерного зрения до NLP.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена