Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Тестовые данные

Узнайте о важности тестовых данных в ИИ, их роли в оценке производительности модели, обнаружении переобучения и обеспечении надежности в реальном мире.

В машинном обучении тестовые данные — это отдельная, независимая часть набора данных, которая используется для окончательной оценки модели после ее полной подготовки и настройки. Этот набор данных действует как «выпускной экзамен» для модели, обеспечивая объективную оценку ее производительности на новых, невиданных данных. Основной принцип заключается в том, что модель никогда не должна учиться на тестовых данных или подвергаться их влиянию во время разработки. Это строгое разделение гарантирует, что показатели производительности, рассчитанные на тестовом наборе, такие как точность или средняя средняя точность (mAP), являются истинным отражением способности модели обобщать реальные сценарии. Строгое тестирование модели является важным шагом перед развертыванием модели.

Роль тестовых данных в жизненном цикле машинного обучения

В типичном проекте машинного обучения (ML) данные тщательно разделяются для различных целей. Понимание различий между этими разделами имеет основополагающее значение.

  • Обучающие данные: Это самая большая часть данных, используемая для обучения модели. Модель итеративно изучает закономерности, признаки и взаимосвязи, корректируя свои внутренние веса на основе примеров в обучающем наборе. Эффективное создание модели зависит от высококачественных обучающих данных и следования лучшим практикам, таким как в этом руководстве по советам по обучению моделей.
  • Данные валидации: Это отдельный набор данных, используемый во время процесса обучения. Его цель — предоставить обратную связь о производительности модели на невидимых данных, что помогает в настройке гиперпараметров (например, регулировке скорости обучения) и предотвращении переобучения. Это как практический тест, который помогает направлять стратегию обучения. Оценка часто выполняется с использованием специального режима валидации.
  • Тестовые данные: Этот набор данных остается полностью изолированным до завершения всего обучения и проверки. Он используется только один раз для предоставления окончательного, непредвзятого отчета о производительности модели. Использование тестовых данных для внесения каких-либо дальнейших корректировок в модель сделает результаты недействительными, что иногда называют «утечкой данных» или «обучением по тесту». Эта окончательная оценка необходима для понимания того, как модель, такая как модель Ultralytics YOLO, будет работать после развертывания. Такие инструменты, как Ultralytics HUB, могут помочь управлять этими наборами данных на протяжении всего жизненного цикла проекта.

Хотя эталонный набор данных может служить в качестве тестового набора, его основная роль заключается в том, чтобы служить общедоступным стандартом для сравнения различных моделей, часто используемым в академических задачах, таких как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Вы можете увидеть примеры этого на страницах сравнения моделей.

Применение в реальном мире

  1. ИИ в автомобильной промышленности: Разработчик создает модель обнаружения объектов для автономного транспортного средства, используя тысячи часов видеозаписей вождения для обучения и валидации. Перед развертыванием этой модели во флоте она оценивается на тестовом наборе данных. Этот тестовый набор будет включать сложные, ранее невиданные сценарии, такие как вождение ночью в сильный дождь, навигация во время снежной бури или обнаружение пешеходов, частично закрытых другими объектами. Производительность модели на этом тестовом наборе, часто с использованием данных из таких бенчмарков, как nuScenes, определяет, соответствует ли она строгим стандартам безопасности и надежности, требуемым для приложений ИИ в автомобильной промышленности.
  2. Анализ медицинских изображений: Модель компьютерного зрения (CV) обучена обнаруживать признаки пневмонии на рентгеновских снимках грудной клетки, полученных из одной больницы. Чтобы модель была клинически полезной, ее необходимо протестировать на наборе изображений из другой больничной системы. Эти тестовые данные должны включать изображения, полученные с использованием различного оборудования, от разнообразной популяции пациентов и интерпретированные разными рентгенологами. Оценка производительности модели на этом внешнем тестовом наборе имеет решающее значение для получения одобрения регулирующих органов, например, от FDA, и подтверждения ее полезности для ИИ в здравоохранении. Этот процесс помогает убедиться, что модель избегает смещения набора данных и надежно работает в новых клинических условиях.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена