Глоссарий

Эталонный набор данных

Узнай, как эталонные наборы данных способствуют инновациям в области ИИ, обеспечивая справедливую оценку моделей, воспроизводимость и прогресс в машинном обучении.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Эталонный набор данных - это стандартизированная коллекция данных, используемая для оценки и сравнения производительности моделей машинного обучения (ML). Эти наборы данных играют важнейшую роль в разработке искусственного интеллекта (ИИ), обеспечивая последовательную и объективную базу для измерения того, насколько хорошо различные алгоритмы справляются с конкретными задачами. Исследователи и разработчики широко используют эталонные наборы данных для тестирования новых моделей, проверки улучшений существующих, обеспечения соответствия моделей признанным стандартам и отслеживания прогресса в сообществе ИИ, особенно в таких областях, как компьютерное зрение (CV).

Важность эталонных наборов данных

Эталонные наборы данных очень важны, потому что они создают равные условия для оценки моделей. Используя точно такие же данные и критерии оценки, исследователи могут напрямую и честно сравнивать сильные и слабые стороны разных моделей в одинаковых условиях. Такая практика способствует воспроизводимости исследований, облегчая другим проверку результатов и развитие существующей работы. Бенчмарки помогают выявить области, в которых модели преуспевают или испытывают трудности, направляя будущие направления исследований и усилий разработчиков на создание более надежных и прочных систем ИИ. Они служат вехами, позволяя сообществу оценивать прогресс с течением времени.

Ключевые особенности эталонных наборов данных

Качественные эталонные наборы данных, как правило, имеют несколько ключевых характеристик:

  • Репрезентативность: Данные должны точно отражать сценарии реального мира или конкретную проблемную область, для которой предназначена модель.
  • Размер и разнообразие: Они должны быть достаточно большими и разнообразными, чтобы позволить провести значимую оценку и не дать моделям просто запомнить данные(overfitting). Качественные наборы данных для компьютерного зрения очень важны.
  • Четкие аннотации: Данные должны быть точно и последовательно обозначены(маркировка данных) в соответствии с четко определенными рекомендациями.
  • Стандартизированные метрики оценки: Бенчмарки обычно поставляются с конкретными метриками (например, точность, mAP, IoU) и протоколами оценки, чтобы обеспечить последовательное сравнение.
  • Доступность: Они должны быть легкодоступны для исследовательского сообщества, часто через публичные хранилища или вызовы.

Применение эталонных наборов данных

Бенчмарк-данные широко используются в различных задачах ИИ и глубокого обучения (ГЛО), включая:

Примеры из реальной жизни

  1. Сравнивай модели обнаружения объектов: Когда Ultralytics разрабатывает новую модель, например Ultralytics YOLO11то ее производительность строго тестируется на стандартных эталонных наборах данных, таких как COCO. Результаты (например, баллы mAP) сравниваются с предыдущими версиями (YOLOv8, YOLOv10) и другими современными моделями. Эти сравнения моделей помогают пользователям выбрать лучшую модель для своих конкретных нужд, будь то академические исследования или коммерческие приложения. Платформы вроде Ultralytics HUB позволяют пользователям обучать модели и потенциально сравнивать их на пользовательских данных.
  2. Продвижение автономного вождения: Компании, разрабатывающие технологии для автономных автомобилей, во многом полагаются на такие эталоны, как Argoverse или nuScenes. Эти наборы данных содержат сложные сценарии городского вождения с подробными аннотациями автомобилей, пешеходов, велосипедистов и т.д. Оценивая свои модели восприятия на этих эталонах, компании могут измерить улучшения в точности обнаружения, надежности слежения и общей надежности системы, что очень важно для обеспечения безопасности в ИИ для самоуправляемых автомобилей.

Бенчмарк по сравнению с другими наборами данных

Важно отличать эталонные наборы данных от других разбиений данных, используемых в жизненном цикле ML:

  • Обучающие данные: Используются для обучения модели путем настройки ее параметров на основе входных примеров и соответствующих им меток. Как правило, это самая большая часть данных. Здесь часто применяются такие техники, как увеличение данных.
  • Валидационные данные: Используются во время обучения для настройки гиперпараметров модели (например, скорости обучения или выбора архитектуры) и дают несмещенную оценку мастерства модели при настройке. Это помогает предотвратить чрезмерную подгонку под обучающие данные.
  • Тестовые данные: Используются после того, как модель полностью обучена, чтобы дать окончательную, непредвзятую оценку ее работы на невидимых данных. Эталонные наборы данных часто служат стандартными тестовыми наборами для сравнения различных моделей, разработанных независимо друг от друга.

Хотя эталонный набор данных может использоваться в качестве тестового набора, его основное назначение шире: обеспечить общий стандарт для сравнения всего исследовательского сообщества, чему часто способствуют публичные таблицы лидеров, связанные с такими задачами, как ImageNet Large Scale Visual Recognition Challenge (ILSVRC).

Читать полностью