Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Эталонный набор данных

Узнайте, как эталонные наборы данных стимулируют инновации в области ИИ, обеспечивая справедливую оценку моделей, воспроизводимость и прогресс в машинном обучении.

Эталонный набор данных — это стандартизированный, высококачественный набор данных, используемый в машинном обучении (ML) для оценки и сравнения производительности различных алгоритмов и моделей справедливым и воспроизводимым образом. Эти наборы данных тщательно отобраны и широко приняты исследовательским сообществом, служат общей основой для измерения прогресса в конкретных задачах, таких как обнаружение объектов или классификация изображений. Путем тестирования моделей на одних и тех же данных и метриках оценки исследователи и разработчики могут объективно определить, какие подходы являются более эффективными, быстрыми или действенными. Использование эталонов имеет основополагающее значение для продвижения современного уровня развития технологий в области искусственного интеллекта (AI).

Важность бенчмаркинга

В быстро развивающейся области компьютерного зрения (CV) эталонные наборы данных незаменимы. Они обеспечивают стабильную основу для оценки улучшений и инноваций в моделях. Без них было бы трудно узнать, действительно ли новая архитектура модели или метод обучения представляет собой улучшение или ее производительность просто связана с тестированием на другом, потенциально более простом, наборе данных. Общедоступные таблицы лидеров, часто связанные с такими задачами, как ImageNet Large Scale Visual Recognition Challenge (ILSVRC), используют эти наборы данных для стимулирования здоровой конкуренции и прозрачного отслеживания прогресса. Этот процесс способствует разработке более надежных и обобщаемых моделей, что имеет решающее значение для развертывания моделей в реальных условиях.

Реальные примеры

  1. Сравнение моделей обнаружения объектов: Когда Ultralytics разрабатывает новую модель, такую как YOLO11, ее производительность тщательно тестируется на стандартных эталонных наборах данных, таких как COCO. Результаты, измеренные с помощью таких метрик, как средняя точность (mAP), сравниваются с предыдущими версиями (YOLOv8, YOLOv10) и другими современными моделями. Эти сравнения моделей помогают пользователям выбрать лучшую модель для своих нужд. Платформы, такие как Ultralytics HUB, позволяют пользователям обучать модели и сравнивать их на пользовательских данных.
  2. Развитие автономного вождения: Компании, разрабатывающие технологии для автономных транспортных средств, в значительной степени полагаются на такие бенчмарки, как Argoverse или nuScenes. Эти наборы данных содержат сложные сценарии вождения в городских условиях с подробными аннотациями для автомобилей, пешеходов и велосипедистов. Оценивая свои модели восприятия на этих бенчмарках, компании могут измерять улучшения в точности обнаружения, надежности отслеживания и общей устойчивости системы, что имеет решающее значение для обеспечения безопасности в ИИ для самоуправляемых автомобилей.

Эталонные и другие наборы данных

Важно отличать эталонные наборы данных от других разделений данных, используемых в жизненном цикле машинного обучения:

  • Обучающие данные: Используются для обучения модели путем корректировки ее параметров на основе входных примеров и соответствующих им меток. Обычно это самая большая часть данных. Здесь часто применяются такие методы, как аугментация данных.
  • Данные валидации: Используются во время обучения для настройки гиперпараметров модели (таких как скорость обучения или выбор архитектуры) и предоставления несмещенной оценки навыков модели. Это помогает предотвратить переобучение на обучающих данных.
  • Тестовые данные: Используются после полной подготовки модели для предоставления окончательной, несмещенной оценки ее производительности на невидимых данных.

Хотя эталонный набор данных часто служит стандартизированным тестовым набором, его основная цель шире: обеспечить общий стандарт для сравнения во всем исследовательском сообществе. Многие эталонные наборы данных перечислены и отслеживаются на таких платформах, как Papers with Code, на которой размещены таблицы лидеров для различных задач машинного обучения. Другие известные наборы данных включают Open Images V7 от Google и задачу Pascal VOC. Доступ к таким высококачественным наборам данных компьютерного зрения необходим всем, кто создает надежные системы искусственного интеллекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена