Test Data

Исследуй жизненно важную роль тестовых данных в машинном обучении. Научись оценивать производительность Ultralytics YOLO26 с помощью беспристрастных наборов данных, чтобы обеспечить точность в реальных условиях.

Тестовые данные — это особый подмножество большого набора данных, строго зарезервированное для оценки финальной производительности модели машинного обучения (ML). В отличие от данных, используемых на более ранних этапах обучения, тестовые данные остаются полностью «невидимыми» для алгоритма вплоть до самого конца цикла разработки. Эта изоляция критически важна, поскольку она обеспечивает объективную оценку того, насколько хорошо модель компьютерного зрения (CV) или другая ИИ-система будет обобщать новые данные из реального мира. Имитируя рабочую среду, тестовые данные помогают разработчикам убедиться в том, что их модель действительно выучила базовые закономерности, а не просто зазубрила примеры из обучающей выборки.

Link to this sectionРоль тестовых данных в жизненном цикле ML#

В стандартном рабочем процессе машинного обучения данные обычно делятся на три отдельные категории, каждая из которых выполняет свою уникальную задачу. Понимание различий между этими разделами жизненно важно для создания надежных систем искусственного интеллекта (ИИ).

Обучающие данные: Это самая большая часть набора данных, используемая для обучения модели. Алгоритм итеративно корректирует свои внутренние параметры, или веса, чтобы минимизировать ошибки на этом конкретном наборе примеров.
Валидационные данные: Это подмножество часто используется в процессе обучения для настройки гиперпараметров и принятия архитектурных решений. Оно служит промежуточной проверкой для предотвращения переобучения, при котором модель хорошо работает на обучающих данных, но не справляется с новыми.
Тестовые данные: Это финальный «экзамен» для модели. Они никогда не используются для обновления весов или настройки параметров. Оценка на тестовых данных дает окончательные метрики производительности, такие как точность, полнота и средняя точность (mAP), которые стейкхолдеры используют для принятия решения о готовности модели к развертыванию.

Правильное управление этими разделами часто упрощается с помощью таких инструментов, как платформа Ultralytics, которая может автоматически организовывать загруженные наборы данных по этим важным категориям для обеспечения тщательной оценки модели.

Link to this sectionВажность объективной оценки#

Основная ценность тестовых данных заключается в их способности обнаруживать смещение набора данных и проблемы с дисперсией. Если модель достигает 99% точности на обучающих данных, но только 60% на тестовых, это указывает на высокую дисперсию (переобучение). И наоборот, низкие показатели на обоих наборах говорят о недообучении.

Using a designated test set adheres to scientific principles of reproducibility and objectivity. Without a pristine test set, developers risk "teaching to the test," effectively leaking information from the evaluation phase back into the training phase—a phenomenon known as data leakage. This results in overly optimistic performance estimates that crumble when the model faces real-world data.

Link to this sectionРеальные приложения#

Тестовые данные необходимы во всех отраслях, использующих ИИ, для обеспечения безопасности и надежности перед запуском систем в эксплуатацию.

Автономное вождение: При разработке автономных транспортных средств обучающие данные могут состоять из миллионов миль, пройденных по шоссе при ясной погоде. Тестовые данные, однако, должны включать редкие и сложные сценарии — такие как сильный снегопад, внезапные препятствия или сбивающие с толку дорожные знаки, — которые автомобиль никогда явно не «видел» во время обучения. Это гарантирует, что система обнаружения объектов сможет безопасно реагировать в непредсказуемых условиях.
Медицинская диагностика: При создании модели для обнаружения опухолей на медицинских изображениях обучающая выборка может быть взята из базы данных конкретной больницы. Чтобы подтвердить, что модель надежна и безопасна для широкого использования, тестовые данные в идеале должны состоять из снимков из разных больниц, полученных на разных аппаратах и представляющих разнообразную демографию пациентов. Эта внешняя проверка подтверждает, что ИИ не предвзят по отношению к конкретному типу оборудования или группе населения.

Link to this sectionОценка производительности с помощью кода#

Используя пакет ultralytics, ты можешь легко оценить производительность модели на отложенном наборе данных. Хотя режим val часто используется для валидации во время обучения, его также можно настроить для запуска на конкретном тестовом разделе, определенном в твоей YAML-конфигурации набора данных.

Here is how to evaluate a pre-trained YOLO26 model to obtain metrics like mAP50-95:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

This process generates comprehensive metrics, allowing developers to objectively compare different architectures, such as YOLO26 vs YOLO11, and ensure the chosen solution meets the project's defined goals. Rigorous testing is the final gatekeeping step in ensuring high-quality AI safety standards are met.