Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Недообучение

Узнайте, как выявлять, предотвращать и устранять недообучение в моделях машинного обучения, используя экспертные советы, стратегии и примеры из реального мира.

Недообучение — распространенная проблема в машинном обучении (ML), когда модель слишком проста, чтобы уловить основные закономерности в обучающих данных. Эта простота мешает ей изучить взаимосвязь между входными признаками и целевой переменной, что приводит к низкой производительности как на данных, на которых она была обучена, так и на новых, невидимых данных. Недообученная модель имеет высокое смещение, что означает, что она делает сильные, часто неверные, предположения о данных. Это приводит к модели, которая не может достичь высокого уровня точности и не может хорошо обобщать.

Недообучение против переобучения

Недообучение и переобучение — это две ключевые проблемы в ML, которые связаны со способностью модели обобщать данные с обучающего набора на новые данные. Они представляют собой две крайности в спектре сложности модели.

  • Недообучение: Модель слишком проста и имеет высокое смещение. Она не может изучить лежащую в основе структуру данных, что приводит к высокому значению функции потерь и плохой производительности как на обучающем, так и на наборах данных валидации.
  • Переобучение: Модель слишком сложна и имеет высокую дисперсию. Она слишком хорошо изучает обучающие данные, включая шум и случайные колебания. Это приводит к отличной производительности на обучающем наборе, но к плохой производительности на невидимых данных, поскольку модель, по сути, запомнила примеры обучения, а не изучила общие закономерности.

Конечная цель в ML — найти баланс между этими двумя понятиями, известный как компромисс между смещением и дисперсией, чтобы создать модель, которая эффективно обобщается на новые, реальные сценарии. Анализ кривых обучения — распространенный метод диагностики того, недообучена, переобучена или хорошо обучена модель.

Причины и решения для недообучения

Выявление и устранение недообучения имеет решающее значение для построения эффективных моделей. Проблема обычно возникает из-за нескольких распространенных причин, каждая из которых имеет соответствующие решения.

  • Модель слишком проста: Использование линейной модели для сложной, нелинейной задачи является классической причиной недообучения.
    • Решение: Увеличьте сложность модели. Это может включать в себя переход к более мощной архитектуре модели, такой как более глубокая нейронная сеть или более крупная предварительно обученная модель, например, переход от меньшего к большему варианту модели Ultralytics YOLO. Вы можете изучить различные сравнения моделей YOLO, чтобы выбрать более подходящую архитектуру.
  • Недостаточные или некачественные признаки: Если входные признаки, предоставляемые модели, не содержат достаточно информации для точных прогнозов, модель будет недообучена.
  • Недостаточное обучение: Возможно, модель недостаточно обучена эпохи чтобы изучить закономерности в данных.
  • Чрезмерная регуляризация: Такие методы, как L1 и L2 регуляризация или высокая dropout Показатели используются для предотвращения переобучения, но если они слишком агрессивны, они могут чрезмерно ограничивать модель и вызывать недообучение.
    • Решение: Уменьшите объем регуляризации. Это может означать снижение штрафного члена в функциях регуляризации или снижение коэффициента выпадения. Следование лучшим практикам обучения моделей может помочь найти правильный баланс.

Реальные примеры недообучения

  1. Простой классификатор изображений: Представьте себе обучение очень простой сверточной нейронной сети (CNN) всего с одним или двумя слоями на сложной задаче классификации изображений, такой как идентификация тысяч категорий объектов в наборе данных ImageNet. Ограниченная емкость модели не позволит ей изучить сложные признаки, необходимые для различения такого количества классов, что приведет к низкой точности как на обучающих, так и на тестовых данных. Фреймворки, такие как PyTorch и TensorFlow, предоставляют инструменты для создания более сложных архитектур для преодоления этого.
  2. Базовая предиктивная аналитика: Рассмотрите возможность использования простой модели линейной регрессии для прогнозного моделирования, чтобы оценить, когда машина выйдет из строя, основываясь только на ее рабочей температуре. Если на отказы оборудования на самом деле влияет сложная, нелинейная взаимосвязь таких факторов, как вибрация, возраст и давление, простая линейная модель будет недообучена. Она не сможет отразить истинную сложность системы, что приведет к плохой прогнозной производительности и неспособности точно предвидеть отказы. Более сложная модель, такая как градиентный бустинг или нейронная сеть, была бы более подходящей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена