Глоссарий

Данные проверки

Оптимизируйте модели машинного обучения с помощью проверочных данных, чтобы предотвратить перебор, настроить гиперпараметры и обеспечить надежную работу в реальных условиях.

Валидационные данные - это выборка данных, задержанная в процессе обучения, которая используется для беспристрастной оценки пригодности модели при настройке ее гиперпараметров. Основная роль валидационного набора заключается в том, чтобы направлять развитие модели машинного обучения (ML), предлагая частую, независимую оценку ее производительности. Этот цикл обратной связи необходим для создания моделей, которые не только хорошо работают с данными, которые они видели, но и эффективно обобщают новые, еще не виденные данные, что является ключевой концепцией для создания надежных систем искусственного интеллекта (ИИ).

Роль валидационных данных

Основная цель валидационных данных - предотвратить переподгонку. Переподгонка происходит, когда модель слишком хорошо усваивает обучающие данные, улавливая шум и детали, которые не применимы к новым данным, что снижает ее производительность. Тестируя модель на валидационном множестве через регулярные промежутки времени (например, после каждой эпохи), разработчики могут отслеживать ошибку обобщения. Если производительность на обучающих данных продолжает улучшаться, в то время как производительность на валидационных данных застопорилась или ухудшилась, это явный признак чрезмерной подгонки.

Этот процесс оценки очень важен для настройки гиперпараметров. Гиперпараметры - это внешние по отношению к модели параметры конфигурации, такие как скорость обучения или размер партии, которые не изучаются на основе данных. Валидационный набор позволяет экспериментировать с различными комбинациями гиперпараметров, чтобы найти набор, дающий наилучшую производительность. Этот итерационный процесс является основной частью выбора и оптимизации модели.

Данные проверки в сравнении с данными обучения и тестирования

В типичном ML-проекте набор данных разбивается на три подмножества, и понимание их различных ролей имеет принципиальное значение. Общий подход к разделению данных заключается в том, чтобы выделить 70 % для обучения, 15 % для проверки и 15 % для тестирования.

  • Обучающие данные: Это самая большая часть данных, используемая для обучения модели. Модель итеративно изучает паттерны, особенности и взаимосвязи из этого набора данных, регулируя внутренние веса модели.
  • Валидационные данные: Это отдельное подмножество используется для беспристрастной оценки в процессе обучения. Она помогает настроить гиперпараметры и принять ключевые решения, например, когда следует применить раннюю остановку для предотвращения чрезмерной подгонки. В экосистеме Ultralytics эта оценка выполняется в режиме валидации.
  • Тестовые данные: Этот набор данных хранится до тех пор, пока модель не будет полностью обучена и настроена. Он используется только один раз, чтобы дать окончательную, непредвзятую оценку производительности модели. Производительность тестового набора показывает, как модель должна работать в реальном сценарии развертывания.

Строгое разделение, особенно между валидационными и тестовыми наборами, имеет решающее значение для точной оценки возможностей модели и предотвращения компромисса между смещением и дисперсией.

Примеры из реальной жизни

  1. Обнаружение объектов вкомпьютерном зрении: При обучении модели Ultralytics YOLO для обнаружения объектов на изображениях (например, с использованием набора данных VisDrone) часть помеченных изображений выделяется в качестве валидных данных. Во время обучения на этом валидационном наборе после каждой эпохи вычисляется mAP (средняя точность) модели. Этот показатель помогает решить, когда следует прекратить обучение или какой набор методов дополнения данных работает лучше всего, перед окончательной проверкой производительности на тестовом наборе. Эффективные стратегии оценки моделей в значительной степени зависят от этого разделения.
  2. Обработка естественного языка Классификация текста: При разработке модели, классифицирующей отзывы покупателей как положительные или отрицательные(анализ настроения), для выбора оптимальной архитектуры (например, LSTM против Transformer) или настройки гиперпараметров, таких как коэффициент отсева, используется валидационный набор. Модель, получившая наивысшую оценку F1 или точность на валидационном наборе, будет выбрана для финального тестирования. Такие ресурсы, как Hugging Face Datasets, часто предоставляют наборы данных, предварительно разделенные для этой цели.

Кросс-валидация

Когда количество доступных данных ограничено, часто используется техника, называемая кросс-валидацией (в частности, K-Fold Cross-Validation). В этом случае обучающие данные разбиваются на "K" подмножеств (складок). Модель обучается K раз, каждый раз используя K-1 складку для обучения и оставшуюся складку в качестве валидационного набора. Затем производительность усредняется по всем K прогонам. Это дает более надежную оценку производительности модели и позволяет лучше использовать ограниченные данные, как объясняется в таких ресурсах, как документация по scikit-learn и руководство Ultralytics по перекрестной валидации K-Fold.

Подводя итог, можно сказать, что валидационные данные - это краеугольный камень построения надежных и высокопроизводительных моделей ИИ с помощью таких фреймворков, как PyTorch и TensorFlow. Они позволяют эффективно настраивать гиперпараметры, выбирать модели и предотвращать перебор, обеспечивая обобщение моделей за пределами данных, на которых они были обучены. Платформы, подобные Ultralytics HUB, предлагают интегрированные инструменты для эффективного управления такими наборами данных.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена