Глоссарий

Маркировка данных

Узнайте о важнейшей роли маркировки данных в машинном обучении, ее процессе, проблемах и реальном применении в разработке ИИ.

Маркировка данных - это процесс идентификации исходных данных (например, изображений, текстовых файлов или видео) и добавления к ним одной или нескольких информативных меток или аннотаций для создания контекста, позволяющего модели машинного обучения обучаться на их основе. Этот процесс является основополагающим в контролируемом обучении, где помеченный набор данных выступает в качестве "базовой истины", которую алгоритм использует для обучения, чтобы делать точные предсказания на новых, не помеченных данных. Качественная маркировка данных - один из самых важных и трудоемких этапов создания надежной модели ИИ, поскольку производительность модели напрямую зависит от качества и точности меток, на которых она обучается.

Почему важна маркировка данных?

Маркировка данных обеспечивает необходимую основу для понимания и интерпретации мира моделями. В компьютерном зрении (КЗ) метки учат модель распознавать, что представляет собой объект и где он находится на изображении. Без точных меток модель не может выучить шаблоны, необходимые для выполнения своей задачи, что приводит к низкой точности и ненадежности. Качество обучающих данных, которые создаются с помощью маркировки, напрямую диктует качество результирующего ИИ. Этот принцип часто обобщают как "мусор внутрь, мусор наружу". Хорошо маркированные эталонные наборы данных, такие как COCO и ImageNet, сыграли важную роль в развитии компьютерного зрения.

Типы маркировки данных в компьютерном зрении

Различные задачи по созданию резюме требуют различных типов аннотаций. Наиболее распространенные методы включают:

  • Классификация изображений: Простейшая форма, когда всему изображению присваивается одна метка, описывающая его содержание (например, "кошка", "собака"). Вы можете изучить наборы данных для этой задачи, например CIFAR-100.
  • Обнаружение объектов: Рисование ограничительной рамки вокруг каждого объекта, представляющего интерес на изображении, и присвоение ему метки класса. Это сообщает модели, что это за объект и где он находится.
  • Сегментация изображения: Более детальный метод, который предполагает определение точной формы объекта на уровне пикселей. Этот метод можно разделить на семантическую сегментацию, когда все объекты одного класса имеют одну маску, и сегментацию экземпляров, когда каждый экземпляр объекта сегментируется отдельно.
  • Оценка позы: Этот метод позволяет определить положение и ориентацию объектов путем аннотирования ключевых точек. Например, при оценке позы человека ключевые точки отмечают такие суставы, как локти, колени и запястья. Набор данных COCO Keypoints является популярным ресурсом для решения этой задачи.

Применение в реальном мире

  1. Автономные транспортные средства: Маркировка данных очень важна для обучения систем восприятия самоуправляемых автомобилей. Люди-аннотаторы тщательно маркируют миллионы изображений и видеокадров, рисуя ограничительные рамки вокруг автомобилей, пешеходов и велосипедистов, сегментируя разметку полос движения и классифицируя дорожные знаки. Эти богатые данные позволяют таким моделям, как Ultralytics YOLO11, учиться безопасно ориентироваться в сложной городской среде. Работа таких компаний, как Waymo, в значительной степени опирается на обширные, точно маркированные наборы данных. Вы можете узнать больше об этой области на нашей странице, посвященной решениям в области ИИ в автомобильной промышленности.
  2. Анализ медицинских изображений: При использовании ИИ в здравоохранении радиологи и медицинские эксперты маркируют снимки, такие как МРТ, КТ и рентгеновские снимки, чтобы выявить опухоли, повреждения и другие аномалии. Например, в наборе данных по опухолям мозга эксперты определяют точные границы опухоли. Эти маркированные данные используются для обучения моделей, которые могут помочь в ранней диагностике, потенциально снижая нагрузку на медицинских работников и улучшая результаты лечения пациентов. Радиологическое общество Северной Америки (RSNA) активно изучает роль искусственного интеллекта в медицинской диагностике.

Маркировка данных в сравнении со смежными понятиями

Маркировка данных часто выполняется вместе с другими задачами подготовки данных, но важно различать их:

  • Дополнение данных: Эта техника искусственно расширяет набор обучающих данных, создавая модифицированные версии уже помеченных данных (например, поворачивая, переворачивая или изменяя яркость изображения). Дополнение увеличивает разнообразие данных, но зависит от исходного набора помеченных данных. Более подробно о дополнении данных можно узнать из обзора.
  • Очистка данных: Этот процесс включает в себя выявление и исправление или устранение ошибок, несоответствий и неточностей в наборе данных. Хотя этот процесс может включать исправление неправильных меток, очистка данных - это этап обеспечения качества, в то время как маркировка данных - это первоначальный акт создания аннотаций. Очистка данных в Википедии предлагает дополнительный контекст.
  • Предварительная обработка данных: Это более широкий термин, включающий маркировку данных, их очистку и другие преобразования, такие как нормализация или изменение размера изображений для подготовки их к работе с моделью. Маркировка - это особый, важнейший шаг в общем конвейере предварительной обработки.

Проблемы и решения

Несмотря на свою важность, маркировка данных сопряжена с определенными трудностями, включая высокую стоимость, значительные временные затраты и возможность человеческой ошибки или субъективности. Обеспечение качества и согласованности меток для больших групп аннотаторов является серьезным логистическим препятствием.

Чтобы упростить этот процесс, команды часто используют специализированные инструменты аннотирования, такие как CVAT, или платформы, подобные Ultralytics HUB, которые обеспечивают совместную среду для управления наборами данных и рабочими процессами маркировки. Кроме того, передовые технологии, такие как активное обучение, могут помочь в интеллектуальном отборе наиболее информативных точек данных для маркировки, оптимизируя использование времени и усилий аннотаторов. Как отмечается в статье Stanford AI Lab, внимание к качеству данных является ключом к успеху ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена