Глоссарий

Данные испытаний

Узнай о важности тестовых данных в ИИ, их роли в оценке производительности моделей, выявлении перебора и обеспечении надежности в реальном мире.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Тестовые данные - важнейший компонент в жизненном цикле разработки Machine Learning (ML). Под ними понимается независимый набор данных, отдельный от обучающего и валидационного наборов, используемый исключительно для окончательной оценки производительности модели после завершения этапов обучения и настройки. Этот набор данных содержит точки данных, с которыми модель никогда раньше не сталкивалась, что позволяет непредвзято оценить, насколько хорошо модель будет работать на новых, реальных данных. Основная цель использования тестовых данных - оценить обобщающую способность модели - ее способность точно работать на невидимых входных данных.

Важность тестовых данных

Истинная мера успеха ML-модели заключается в ее способности работать с данными, на которых она не была явно обучена. Тестовые данные служат финальной контрольной точкой, предлагая объективную оценку работы модели. Без специального набора тестовых данных высок риск чрезмерной подгонки, когда модель слишком хорошо изучает обучающие данные, включая шумы и специфические закономерности, но не может обобщить их на новые данные. Использование тестовых данных помогает убедиться в том, что заявленные показатели эффективности отражают ожидаемые реальные возможности модели, что повышает уверенность перед развертыванием модели. Этот заключительный этап оценки очень важен для достоверного сравнения различных моделей или подходов, например, для сравнения YOLOv8 и YOLOv9. Он соответствует лучшим практикам, описанным в "Правилах ML"Google.

Основные характеристики

Чтобы быть эффективными, тестовые данные должны обладать определенными характеристиками:

  • Репрезентативность: Она должна точно отражать характеристики реальных данных, с которыми модель столкнется после развертывания. Это включает в себя схожее распределение характеристик, классов и потенциальных вариаций. Очень важна хорошая практика сбора и аннотирования данных.
  • Независимость: Тестовые данные должны быть строго отделены от обучающих и валидационных наборов. Они никогда не должны использоваться для обучения модели или настройки ее гиперпараметров. Любое перекрытие или утечка может привести к слишком оптимистичным оценкам производительности.
  • Достаточный размер: Набор тестов должен быть достаточно большим, чтобы получить статистически значимые результаты и достоверно оценить эффективность модели.

Тестовые данные по сравнению с тренировочными и проверочными данными

Очень важно отличать тестовые данные от других разбиений данных, используемых в ML:

  • Обучающие данные: Это самая большая часть набора данных, которая используется непосредственно для обучения модели. Модель изучает закономерности и взаимосвязи на основе этих данных с помощью алгоритмов типа Supervised Learning.
  • Валидационные данные: Этот отдельный набор данных используется на этапе обучения для настройки гиперпараметров модели (например, выбора архитектуры или параметров оптимизации) и принятия решений о процессе обучения (например, о досрочной остановке). Он дает обратную связь о том, насколько хорошо модель обобщает в процессе обучения, направляя процесс оценки и тонкой настройки модели без использования финального тестового набора.
  • Тестовые данные: Используются только один раз после завершения всех тренировок и валидации, чтобы дать окончательную, непредвзятую оценку работы модели на невидимых данных.

Правильное разделение этих наборов данных с помощью таких стратегий, как тщательное разделение данных, имеет решающее значение для разработки надежных моделей и точной оценки их возможностей в реальном мире.

Примеры из реальной жизни

  1. Автономное вождение:. Ultralytics YOLO Модель, обученная для обнаружения объектов в самоуправляемых автомобилях, будет оцениваться на тестовом наборе, содержащем различные, ранее невиданные сценарии вождения (например, ночное вождение, сильный дождь, незнакомые перекрестки). Это гарантирует, что модель будет надежно обнаруживать пешеходов, велосипедистов и другие транспортные средства(технология Waymo во многом зависит от такого тестирования), прежде чем ее внедрят в реальные автомобили.
  2. Медицинская диагностика: в анализе медицинских изображений модель, обученная обнаруживать опухоли с помощью данных, подобных Brain Tumor Detection Dataset, должна быть оценена на тестовом наборе сканов из разных больниц, машин и пациентов, которые не были частью обучения или проверки. Это подтверждает диагностическую точность и устойчивость модели в реальных клинических условиях.

Оценка и управление

Производительность на тестовом наборе обычно измеряется с помощью метрик, относящихся к задаче, таких как точность, средняя точность (mAP) или других, подробно описанных в руководствах вроде документации по метрикам производительностиYOLO . Часто модели оцениваются по установленным эталонным наборам данных, таким как COCO, чтобы обеспечить справедливое сравнение и способствовать воспроизводимости. Управление этими отдельными наборами данных на протяжении всего жизненного цикла проекта облегчают такие платформы, как Ultralytics HUB, которые помогают организовать разделение данных и эффективно отслеживать эксперименты.

Читать полностью