Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Данные для обучения

Узнайте о важности обучающих данных в AI. Узнайте, как качественные наборы данных обеспечивают точные и надежные модели машинного обучения для решения реальных задач.

Обучающие данные служат в качестве исходных данных, используемых для обучения Модель машинного обучения (ML) обрабатывает информации, распознавать закономерности и делать прогнозы. В контексте контролируемого обучения, этот набор данных состоит из входных примеров и соответствующих им желаемых результатов, обычно называемых метками или аннотациями. По мере того как модель обрабатывает эту информацию, она итеративно регулирует свои внутренние веса модели, чтобы минимизировать ошибки и повысить точность. Качество, количество и разнообразие обучающих данных часто являются наиболее значимыми факторами, определяющими успех системы. качество, количество и разнообразие обучающих данных часто являются наиболее значимыми факторами, определяющими успех системы, выступая в качестве топлива, на котором работает современный искусственного интеллекта (ИИ).

Характеристики высококачественных учебных данных

Поговорка "мусор внутрь, мусор наружу" является основополагающей в науке о данных: модель хороша лишь настолько, насколько хороши данные, на которых она на которых она учится. Для создания надежных систем компьютерного зрения (КЗ), наборы данных должны соответствовать строгим стандартам.

  • Актуальность и точность: Данные должны точно представлять реальную проблему, которую решает модель решать. Неточные или "шумные" метки могут запутать процесс обучения. Инструменты для инструменты для маркировки данных помогают обеспечить точность аннотаций, таких как ограничительные рамки или маски сегментации, являются точными.
  • Разнообразие и объем: Ограниченный набор данных может привести к чрезмерной подгонке, когда модель запоминает обучающие но не справляется с новыми данными. Большие и разнообразные наборы данных помогают модели лучше обобщать. Разработчики часто используют методы расширения данных - например переворачивание, вращение или регулировка яркости изображений, чтобы искусственно расширить набор данных и внести разнообразие.
  • Устранение предвзятости: Наборы данных должны тщательно контролироваться, чтобы избежать предвзятости наборов данных, которая может привести к несправедливым или искаженным прогнозам. Решение этой проблемы является ключевым компонентом ответственного развития ИИ и обеспечения справедливых результатов для различных демографических групп.

Различение данных для обучения, проверки и тестирования

Очень важно отличать обучающие данные от других наборов данных, используемых во время жизненного цикла разработки модели. Каждое подмножество служит уникальной цели:

  • Обучающие данные: Наибольшее подмножество (обычно 70-80%), используемое непосредственно для подгонки параметров модели.
  • Валидационные данные: Отдельное Подмножество, используемое во время обучения для беспристрастной оценки соответствия модели. Это помогает разработчикам настраивать гиперпараметров, таких как скорость обучения, и инициирует раннюю остановку, если если производительность достигает плато.
  • Тестовые данные: Полностью невидимый набор данных используется только после завершения обучения. Он обеспечивает окончательную оценку точности и способности обобщать модель в реальном мире сценариях.

Применение в реальном мире

Данные об обучении лежат в основе инноваций практически во всех отраслях.

  1. Автономное вождение: Самостоятельно управляемые автомобили полагаются на массивные наборы данных, такие как nuScenes или Waymo Open Dataset, чтобы безопасной навигации. Эти наборы данных содержат тысячи часов видео, где каждый автомобиль, пешеход и дорожный знак аннотированы. аннотирован каждый автомобиль, пешеход и дорожный знак. Обучаясь на этих разнообразных данных, автономные автомобили учатся detect препятствия и интерпретировать сложные дорожные сценарии в режиме реального времени.
  2. Диагностика в здравоохранении: На сайте При анализе медицинских изображений радиологи собирают обучающие данные, состоящие из рентгеновских снимков, компьютерных или магнитно-резонансных томограмм, помеченных определенными условиями. Например, модели обученные на таких ресурсах, как Архив раковых изображений (TCIA), могут помогать врачам, выделяя потенциальные опухоли с высокой точностью. Такое применение ИИ в здравоохранении значительно ускоряет диагностику и улучшает результаты лечения пациентов.

Обучение с помощью Ultralytics YOLO

Сайт ultralytics Библиотека упрощает процесс использования обучающих данных. Фреймворк эффективно обрабатывает данные загрузкой, дополнением и циклом обучения. Следующий пример демонстрирует, как начать обучение с помощью YOLO11 модель со стандартной конфигурацией набора данных файл.

from ultralytics import YOLO

# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Для тех, кто ищет высококачественные учебные данные, существуют такие платформы, как Google Dataset Search и Kaggle Datasets предлагают обширные репозитории, охватывающие задачи от сегментации изображений до обработки естественного языка обработки. Правильное управление этими данными - первый шаг к созданию высокопроизводительных ИИ-решений.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас