Глоссарий

Данные испытаний

Узнайте о важности тестовых данных в искусственном интеллекте, их роли в оценке эффективности моделей, выявлении избыточной подгонки и обеспечении надежности в реальном мире.

В машинном обучении тестовые данные - это отдельная, независимая часть набора данных, которая используется для окончательной оценки модели после ее полного обучения и настройки. Этот набор данных выступает в качестве "выпускного экзамена" для модели, обеспечивая беспристрастную оценку ее работы на новых, невидимых данных. Основной принцип заключается в том, что модель никогда не должна учиться на тестовых данных или подвергаться их влиянию во время разработки. Такое строгое разделение гарантирует, что показатели производительности, рассчитанные на тестовом наборе, такие как точность или средняя точность (mAP), являются истинным отражением способности модели к обобщению в реальных сценариях. Тщательное тестирование модели - важнейший этап перед ее развертыванием.

Роль тестовых данных в жизненном цикле ОД

В типичном проекте машинного обучения (ML) данные тщательно разбиваются на части для различных целей. Понимание различий между этими разделами имеет фундаментальное значение.

  • Обучающие данные: Это самый большой поднабор данных, используемый для обучения модели. Модель итеративно изучает шаблоны, особенности и взаимосвязи, регулируя свои внутренние веса на основе примеров из обучающего набора. Эффективное создание модели зависит от высококачественных обучающих данных и следования лучшим практикам, подобным тем, которые приведены в этом руководстве по обучению моделей.
  • Валидационные данные: Это отдельный набор данных, используемый в процессе обучения. Его цель - предоставить обратную связь о работе модели на невидимых данных, что помогает в настройке гиперпараметров (например, регулировке скорости обучения) и предотвращении перегрузки. Это как практический тест, который помогает определить стратегию обучения. Оценка часто выполняется с помощью специального режима валидации.
  • Тестовые данные: Этот набор данных хранится в полной изоляции до завершения обучения и проверки. Он используется только один раз, чтобы предоставить окончательный, непредвзятый отчет о работе модели. Использование тестовых данных для внесения дальнейших корректировок в модель приведет к аннулированию результатов, что иногда называют "утечкой данных" или "обучением на тесте". Эта окончательная оценка необходима для понимания того, как модель, например модель Ultralytics YOLO, будет работать после развертывания. Такие инструменты, как Ultralytics HUB, помогают управлять этими наборами данных на протяжении всего жизненного цикла проекта.

Хотя эталонный набор данных может служить в качестве тестового набора, его основная роль - выступать в качестве публичного стандарта для сравнения различных моделей, часто используемого в академических задачах, таких как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Примеры этого можно увидеть на страницах сравнения моделей.

Применение в реальном мире

  1. ИИ в автомобилестроении: Разработчик создает модель обнаружения объектов для автономного автомобиля, используя тысячи часов видеозаписей вождения для обучения и проверки. Прежде чем внедрить эту модель в автопарк, ее оценивают на тестовом наборе данных. Этот тестовый набор включает в себя сложные, ранее невиданные сценарии, такие как вождение ночью в сильный дождь, навигация в снежную бурю или обнаружение пешеходов, частично заслоненных другими объектами. Результаты работы модели на этом тестовом наборе, часто с использованием данных из таких эталонов, как nuScenes, определяют, соответствует ли она строгим стандартам безопасности и надежности, предъявляемым к ИИ в автомобильных приложениях.
  2. Анализ медицинских изображений: Модель компьютерного зрения (CV) обучена выявлять признаки пневмонии на рентгеновских снимках грудной клетки, полученных в одной больнице. Чтобы убедиться в ее клинической полезности, модель необходимо протестировать на наборе данных изображений из другой больничной системы. Эти данные должны включать изображения, полученные с помощью различного оборудования, от разных пациентов и интерпретированные разными рентгенологами. Оценка работы модели на этом внешнем тестовом наборе очень важна для получения разрешения регулирующих органов, например FDA, и подтверждения полезности ИИ в здравоохранении. Этот процесс помогает убедиться в том, что модель избегает предвзятости набора данных и надежно работает в новых клинических условиях.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена