Глоссарий

Эталонный набор данных

Узнайте, как эталонные наборы данных стимулируют инновации в области ИИ, обеспечивая справедливую оценку моделей, воспроизводимость и прогресс в машинном обучении.

Эталонный набор данных - это стандартизированный высококачественный набор данных, используемый в машинном обучении (ML) для оценки и сравнения производительности различных алгоритмов и моделей честным, воспроизводимым способом. Эти наборы данных тщательно контролируются и широко признаются исследовательским сообществом, служа общей базой для оценки прогресса в решении конкретных задач, таких как обнаружение объектов или классификация изображений. Проверяя модели на одних и тех же данных и метриках оценки, исследователи и разработчики могут объективно определить, какие подходы эффективнее, быстрее или результативнее. Использование эталонов является основополагающим фактором в развитии искусственного интеллекта (ИИ).

Важность бенчмаркинга

В быстро развивающейся области компьютерного зрения (КВ) эталонные наборы данных незаменимы. Они обеспечивают стабильную базу для оценки усовершенствований и инноваций в моделях. Без них было бы сложно понять, действительно ли новая архитектура модели или метод обучения представляют собой прогресс, или же их эффективность объясняется тем, что они были протестированы на другом, потенциально более легком наборе данных. Публичные таблицы лидеров, часто связанные с такими задачами, как ImageNet Large Scale Visual Recognition Challenge (ILSVRC), используют эти наборы данных для стимулирования здоровой конкуренции и прозрачного отслеживания прогресса. Этот процесс стимулирует разработку более надежных и обобщенных моделей, что очень важно для внедрения моделей в реальный мир.

Примеры из реальной жизни

  1. Сравнение моделей обнаружения объектов: Когда Ultralytics разрабатывает новую модель, такую как YOLO11, ее производительность тщательно тестируется на стандартных эталонных наборах данных, таких как COCO. Результаты, измеряемые такими показателями, как средняя точность (mAP), сравниваются с предыдущими версиями(YOLOv8, YOLOv10) и другими современными моделями. Эти сравнения моделей помогают пользователям выбрать лучшую модель для своих нужд. Платформы, подобные Ultralytics HUB, позволяют пользователям обучать модели и тестировать их на пользовательских данных.
  2. Продвижение автономного вождения: Компании, разрабатывающие технологии для автономных автомобилей, в значительной степени полагаются на такие эталоны, как Argoverse или nuScenes. Эти наборы данных содержат сложные сценарии городского движения с подробными аннотациями для автомобилей, пешеходов и велосипедистов. Оценивая свои модели восприятия на этих эталонах, компании могут измерить улучшения в точности обнаружения, надежности отслеживания и общей надежности системы, что очень важно для обеспечения безопасности в ИИ для самоуправляемых автомобилей.

Сравнение с другими наборами данных

Важно отличать эталонные наборы данных от других наборов данных, используемых в жизненном цикле ML:

  • Учебные данные: Используются для обучения модели путем настройки ее параметров на основе входных примеров и соответствующих им меток. Как правило, это самая большая часть данных. Здесь часто применяются такие техники, как увеличение данных.
  • Валидационные данные: Используются в процессе обучения для настройки гиперпараметров модели (например, скорости обучения или выбора архитектуры) и позволяют получить несмещенную оценку мастерства модели. Это помогает предотвратить чрезмерную подгонку к обучающим данным.
  • Тестовые данные: Используются после полного обучения модели для окончательной, беспристрастной оценки ее работы на невидимых данных.

Хотя эталонные наборы данных часто служат стандартным набором тестов, их основная цель шире: обеспечить общий стандарт для сравнения во всем исследовательском сообществе. Многие эталонные наборы данных перечислены и отслеживаются на таких платформах, как Papers with Code, где размещаются таблицы лидеров для различных задач ML. Среди других заметных наборов данных - Open Images V7 от Google и Pascal VOC challenge. Доступ к таким высококачественным наборам данных по компьютерному зрению необходим всем, кто создает надежные системы искусственного интеллекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена