Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Разметка данных

Узнайте о важной роли разметки данных в машинном обучении, ее процессе, проблемах и реальных приложениях в разработке ИИ.

Маркировка данных - это фундаментальный процесс маркировки или аннотирования исходных данных с помощью значимого контекста для создания набора данных подходящий для обучения моделей машинного обучения (ML). В контексте контролируемого обучения алгоритмам требуются примеры, включающие как входные данные (например, изображение), так и ожидаемый результат (метку). Эта помеченная информация служит в качестве базовой истины, выступая в качестве эталоном, по которому оцениваются и улучшаются предсказания модели. Без высококачественной маркировки даже самые сложные архитектуры, такие как Ultralytics YOLO11не могут научиться точно распознавать паттерны или идентифицировать объекты.

Важность точной маркировки

Производительность любой системы искусственного интеллекта неразрывно связана с качеством ее обучающих данных. Если метки непоследовательны, неточные или неправильные, модель будет учиться ошибочным ассоциациям - проблема, широко известная в компьютерных науках как "мусор внутрь, мусор наружу". Точная маркировка позволяет моделям хорошо обобщать новые, невидимые данные, что очень важно. что крайне важно для развертывания надежных приложений компьютерного зрения (КВ). Крупнейшие эталонные наборы данных, такие как набор данныхCOCO и ImageNet стали промышленными стандартами именно именно благодаря их обширной и тщательной маркировке.

Типы маркировки в компьютерном зрении

Конкретный метод маркировки данных во многом зависит от поставленной задачи компьютерного зрения:

Применение в реальном мире

Маркировка данных позволяет ИИ работать в сложных, реальных условиях. Два ярких примера включают:

  1. Автономные транспортные средства: Чтобы Для безопасной навигации самоуправляемый автомобиль опирается на обучающие данные, в которых люди тщательно обозначают линии движения, дорожные знаки, пешеходов и другие транспортные средства. Это позволяет системе восприятия автомобиля интерпретировать геометрию дороги геометрию дороги и потенциальные опасности мгновенно. Подробнее об этом вы можете узнать в наших ИИ в автомобильной промышленности.
  2. Анализ медицинских изображений: В здравоохранении радиологи маркируют медицинские снимки для выявления отклонений. Например, на наборе данных об опухолях головного мозга эксперты могут обозначить точные границы поражения. На этих маркированных данных обучаются модели, помогающие врачам в ранней диагностике, что улучшает результаты лечения пациентов. Подробнее о ИИ в здравоохранении, чтобы увидеть эти модели в действии.

Маркировка данных в сравнении со смежными понятиями

Полезно отличать маркировку от аналогичных терминов, используемых в конвейере подготовки данных:

  • Vs. Аннотация данных: Эти термины часто используются как взаимозаменяемые. Однако "маркировка" иногда используется для более простых задач, таких как классификация (тегирование), в то время как "аннотация" подразумевает более богатые метаданные, такие как рисование многоугольников или нанесение ключевые точки.
  • Vs. Расширение данных: При маркировке создается исходный набор данных. После этого происходит дополнение, когда программное обеспечение математически изменяет помеченные изображения (поворот, переворот, добавление шума), чтобы искусственно увеличить разнообразие набора данных без необходимости ручного усилий человека.
  • Vs. Очистка данных: Это включает в себя исправление ошибок в наборе данных, например, удаление поврежденных файлов или исправление неправильно помеченных элементов. Очистка обеспечивает целостность меток, предоставленных аннотаторами.

Инструменты и пример кода

Хотя ручная маркировка отнимает много времени, в современных рабочих процессах часто используется специализированное программное обеспечение, такое как CVAT (Computer Vision Annotation Tool) или используют активное обучение для ускорения процесса. На сайте Готовящаяся к выпуску платформаUltralytics Platform предназначена для оптимизации всего жизненного цикла, начиная с поиска данных и заканчивая автоматическим аннотированием.

Следующий фрагмент на Python демонстрирует, как обучить модель YOLO11 , используя предварительно помеченный набор данных. (coco8.yaml). Процесс обучения полностью зависит от наличия точных меток, заданных в файле конфигурации файле конфигурации набора данных.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас