Глоссарий

Учебные данные

Узнайте о важности обучающих данных в искусственном интеллекте. Узнайте, как качественные наборы данных позволяют создавать точные и надежные модели машинного обучения для реальных задач.

Обучающие данные - это основополагающий набор данных, используемый для обучения модели машинного обучения (ML) тому, как делать точные прогнозы или принимать решения. В контролируемом обучении эти данные состоят из входных образцов, сопряженных с соответствующими правильными выходами, часто называемыми метками или аннотациями. Модель итеративно обучается на этих примерах, регулируя внутренние веса модели, чтобы минимизировать разницу между своими прогнозами и реальными метками. Качество, количество и разнообразие обучающих данных являются наиболее важными факторами, влияющими на производительность модели и ее способность к обобщению на новые, неизвестные данные.

Важность высококачественных учебных данных

Принцип "мусор внутрь, мусор наружу" особенно верен для обучения ML-моделей. Высококачественные данные необходимы для создания надежных и прочных систем. К ключевым характеристикам относятся:

  • Актуальность: Данные должны точно отражать проблему, которую призвана решить модель.
  • Разнообразие: Она должна охватывать широкий спектр сценариев, крайних случаев и вариаций, с которыми модель может столкнуться в реальном мире, чтобы избежать перебора.
  • Точная маркировка: Аннотации должны быть правильными и последовательными. Процесс маркировки данных часто является самой трудоемкой частью проекта по компьютерному зрению.
  • Достаточный объем: Для того чтобы модель могла изучать значимые закономерности, обычно требуется большой объем данных. Такие методы, как увеличение объема данных, помогают искусственно расширить набор данных.
  • Низкая предвзятость: данные должны быть сбалансированными и репрезентативными, чтобы избежать предвзятости набора данных, которая может привести к несправедливому или неправильному поведению модели. Понимание предвзятости алгоритмов - ключевой аспект ответственной разработки ИИ.

Платформы, такие как Ultralytics HUB, предоставляют инструменты для управления наборами данных на протяжении всего жизненного цикла разработки модели, а инструменты с открытым исходным кодом, такие как CVAT, популярны для решения задач аннотирования.

Примеры из реальной жизни

  1. Автономные транспортные средства: Чтобы обучить модель обнаружения объектов для автономных автомобилей, разработчики используют огромное количество обучающих данных с камер и датчиков. Эти данные состоят из изображений и видео, где каждый кадр тщательно промаркирован. Пешеходы, велосипедисты, другие автомобили и дорожные знаки заключены в ограничительные рамки. Обучаясь на таких наборах данных, как Argoverse или nuScenes, искусственный интеллект автомобиля учится воспринимать окружающую обстановку и безопасно ориентироваться в ней.
  2. Анализ медицинских изображений: В здравоохранении обучающие данные для анализа медицинских изображений могут состоять из тысяч снимков МРТ или КТ. Рентгенологи аннотируют эти изображения, чтобы выделить опухоли, переломы или другие патологии. Модель ML, созданная с помощью Ultralytics YOLO, может быть обучена на наборе данных об опухолях головного мозга, чтобы научиться определять эти аномалии, выступая в качестве мощного инструмента, помогающего врачам быстрее и точнее ставить диагноз. Такие ресурсы, как The Cancer Imaging Archive (TCIA), предоставляют открытый доступ к подобным данным для исследований.

Учебные данные в сравнении с данными проверки и тестирования

В типичном проекте ML данные разбиваются на три разных набора:

Строгое разделение этих наборов данных очень важно для разработки надежных моделей. Современные модели часто предварительно обучаются на больших эталонных наборах данных, таких как COCO или ImageNet, которые служат обширными обучающими данными. Вы можете найти больше наборов данных на таких платформах, как Google Dataset Search и Kaggle Datasets.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена