Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Тестовые данные

Узнайте о важности тестовых данных в ИИ, их роли в оценке производительности модели, обнаружении переобучения и обеспечении надежности в реальном мире.

В машинном обучении тестовые данные - это отдельная, независимая часть набора данных, используемая для окончательной оценки модели после ее полного обучения и настройки. Этот набор данных выступает в качестве "выпускного экзамена" для модели, обеспечивая беспристрастную оценку ее работы на новых, невидимых данных. Основной принцип заключается в том, что модель не должна обучаться на тестовых данных или подвергаться их влиянию во время разработки. Такое строгое разделение гарантирует, что показатели эффективности, рассчитанные на тестовом наборе, такие как точность или средняя точность (mAP), являются истинным отражают способность модели обобщать модели в реальных сценариях. Строгое тщательное тестирование модели - важнейший шаг перед развертывания модели.

Роль тестовых данных в жизненном цикле машинного обучения

В типичном проекте машинного обучения (ML) данные тщательно разбиваются на разделы для различных целей. Понимание различий между этими разделами является фундаментальное значение для построения надежных моделей.

  • Учебные данные: Это самый большой подмножество данных, используемое для обучения модели. Модель итеративно изучает паттерны, особенности и взаимосвязи путем регулируя внутренние веса модели на основе примерах из обучающего набора. Эффективное создание модели зависит от высококачественных обучающих данных и следования лучшим практики, как в этом руководство по обучению моделей.
  • Валидационные данные: Это Отдельный набор данных, используемый в процессе обучения. Его цель - обеспечить обратную связь с моделью производительности модели на невидимых данных, что помогает в настройке гиперпараметров (например, регулировке скорости обучения) и предотвратить перегрузки. Это как тренировочный тест, который помогает направлять стратегию обучения. Оценка часто выполняется с помощью специального режим валидации.
  • Тестовые данные: Этот набор данных хранится в полной изоляции до завершения обучения и проверки. Он используется только один раз, чтобы предоставить окончательный, непредвзятый отчет о работе модели. Использование тестовых данных для внесения Использование тестовых данных для дальнейшей корректировки модели приведет к аннулированию результатов, что иногда называют ошибкой. "утечкой данных" или "обучением теста". Эта окончательная оценка необходима для понимания того, как модель, например Ultralytics YOLO11 как модель Ultralytics YOLO11, будет работать после развертывания.

После обучения вы сможете использовать val режим на тестовом сплите, чтобы получить окончательные показатели эффективности.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

Хотя эталонный набор данных может служить в качестве тестового набора набор, его основная роль заключается в том, чтобы выступать в качестве публичного стандарта для сравнения различных моделей, часто используемого в академических задачах таких как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Вы Вы можете увидеть примеры этого на страницах сравнения моделей.

Применение в реальном мире

  1. ИИ в автомобилестроении: Разработчик создает модель обнаружения объектов для автономного автомобиля, используя тысячи часов видеозаписей вождения для обучения и проверки. Прежде чем внедрить эту модель в автопарк, ее оценивают на тестовым набором данных. Этот тестовый набор включает в себя сложные, ранее невиданные сценарии, такие как вождение ночью под проливным дождем дождь, навигация в снежную бурю или обнаружение пешеходов, частично заслоненных другими объектами. Эффективность модели производительность модели на этом тестовом наборе, часто с использованием данных из таких эталонов, как nuScenes, определяет, соответствует ли она строгим стандартам безопасности и надежности, предъявляемым к ИИ в автомобильных приложениях.
  2. Анализ медицинских изображений: A Модель компьютерного зрения (КЗ) обучена detect признаков пневмонии на рентгеновских снимках грудной клетки, полученных в одной больнице. Чтобы убедиться в ее клинической полезности, модель модель должна быть протестирована на наборе данных изображений из другой больничной системы. Эти тестовые данные должны включать изображения полученные с помощью различного оборудования, от разных пациентов и интерпретированные разными рентгенологами. Оценка эффективности модели на этом внешнем тестовом наборе имеет решающее значение для получения разрешения регулирующих органов, таких как от FDA, и подтвердить полезность модели для ИИ в здравоохранении. Этот процесс помогает убедиться в том, что модель избегает предвзятости набора данных и надежно работает в новых клинических условиях. Публичные наборы данных медицинской визуализации можно найти на таких ресурсах, как Архив изображений рака (TCIA).

Лучшие практики управления тестовыми данными

Чтобы обеспечить целостность вашей оценки, примите во внимание эти лучшие практики:

  • Случайная выборка: При создании разбиения данных убедитесь, что тестовый набор является репрезентативной репрезентативной выборкой из всего проблемного пространства. Для этого можно использовать такие инструменты, как train_test_split от scikit-learn могут помочь автоматизировать это случайное разбиение.
  • Предотвращение утечки данных: Убедитесь, что обучающий и тестовый наборы данных не пересекаются. Даже незначительная утечка, например, наличие кадров из одного и того же видеоклипа в обоих наборах, может искусственно завысить оценку производительности.
  • Представительное распределение: Для таких задач, как классификация, убедитесь, что распределение классов в тестовом наборе отражает реальное распределение, с которым вы ожидаете столкнуться.
  • Метрики оценки: Выберите показатели, которые соответствуют вашим бизнес-целям. Например, для приложений безопасности например, для приложений безопасности высокий показатель запоминания может быть важнее, чем точность, чтобы не пропустить ни одной угрозы.

Строго придерживаясь этих принципов, вы можете с уверенностью использовать тестовые данные для подтверждения того, что ваши моделиUltralytics готовы к использованию в производственных средах.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас