Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Данные для обучения

Узнайте о важности обучающих данных в AI. Узнайте, как качественные наборы данных обеспечивают точные и надежные модели машинного обучения для решения реальных задач.

Данные для обучения — это базовый набор данных, используемый для обучения модели машинного обучения (ML) тому, как делать точные прогнозы или принимать решения. В обучении с учителем эти данные состоят из входных образцов в паре с соответствующими правильными выходными данными, часто называемыми метками или аннотациями. Модель итеративно учится на этих примерах, корректируя свои внутренние веса модели, чтобы минимизировать разницу между своими прогнозами и фактическими метками. Качество, количество и разнообразие данных для обучения являются наиболее важными факторами, влияющими на производительность модели и ее способность обобщать новые, ранее не виданные данные.

Важность высококачественных данных для обучения

Принцип «что на входе, то и на выходе» особенно актуален для обучения моделей машинного обучения. Высококачественные данные необходимы для построения надежных и устойчивых систем. Ключевые характеристики включают:

  • Релевантность: Данные должны точно отражать проблему, которую модель призвана решить.
  • Разнообразие: Он должен охватывать широкий спектр сценариев, крайних случаев и вариаций, с которыми модель столкнется в реальном мире, чтобы избежать переобучения.
  • Точная разметка: Аннотации должны быть правильными и согласованными. Процесс разметки данных часто является наиболее трудоемкой частью проекта компьютерного зрения.
  • Достаточный объем: Обычно требуется большой объем данных, чтобы модель могла изучить значимые закономерности. Такие методы, как аугментация данных, могут помочь искусственно расширить набор данных.
  • Низкая предвзятость: Данные должны быть сбалансированными и репрезентативными, чтобы предотвратить предвзятость набора данных, которая может привести к несправедливому или неправильному поведению модели. Понимание алгоритмической предвзятости является ключевым аспектом ответственной разработки ИИ.

Платформы, такие как Ultralytics HUB, предоставляют инструменты для управления наборами данных на протяжении всего жизненного цикла разработки модели, в то время как инструменты с открытым исходным кодом, такие как CVAT, популярны для задач аннотирования.

Реальные примеры

  1. Автономные транспортные средства: Чтобы обучить модель обнаружения объектов для автономных транспортных средств, разработчики используют огромные объемы обучающих данных, полученных с камер и датчиков. Эти данные состоят из изображений и видео, где каждый кадр тщательно размечен. Пешеходы, велосипедисты, другие автомобили и дорожные знаки заключены в ограничивающие рамки. Обучаясь на наборах данных, таких как Argoverse или nuScenes, ИИ транспортного средства учится воспринимать окружающую среду и безопасно ориентироваться в ней.
  2. Анализ медицинских изображений: В здравоохранении обучающие данные для анализа медицинских изображений могут состоять из тысяч МРТ- или КТ-сканов. Рентгенологи аннотируют эти изображения, чтобы выделить опухоли, переломы или другие патологии. Модель машинного обучения, такая как модель, построенная с помощью Ultralytics YOLO, может быть обучена на наборе данных об опухолях головного мозга, чтобы научиться выявлять эти аномалии, выступая в качестве мощного инструмента, помогающего врачам ставить более быстрые и точные диагнозы. Такие ресурсы, как Архив изображений рака (TCIA), предоставляют открытый доступ к таким данным для исследований.

Данные для обучения в сравнении с данными для валидации и тестирования

В типичном ML-проекте данные разделяются на три различных набора:

  • Обучающие данные: Самая большая часть, используемая непосредственно для обучения модели путем корректировки ее параметров. Эффективное обучение часто включает в себя тщательное рассмотрение советов по обучению модели.
  • Данные валидации: Отдельное подмножество, периодически используемое во время обучения для оценки производительности модели на данных, на которых она явно не обучалась. Это помогает в настройке гиперпараметров (например, скорости обучения, размера пакета) с помощью таких процессов, как оптимизация гиперпараметров (Wikipedia), и обеспечивает раннее предупреждение о переобучении. Для этой оценки используется режим валидации.
  • Тестовые данные: Независимый набор данных, невидимый во время обучения и проверки, используемый только после полной подготовки модели. Он обеспечивает окончательную, непредвзятую оценку способности модели к обобщению и ожидаемой производительности в реальном мире. Строгое тестирование модели имеет решающее значение перед развертыванием.

Строгое разделение этих наборов данных необходимо для разработки надежных моделей. Современные модели часто предварительно обучаются на больших эталонных наборах данных, таких как COCO или ImageNet, которые служат обширными данными для обучения. Дополнительные наборы данных можно найти на таких платформах, как Google Dataset Search и Kaggle Datasets.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена