Узнайте о важной роли разметки данных в машинном обучении, ее процессе, проблемах и реальных приложениях в разработке ИИ.
Маркировка данных - это фундаментальный процесс маркировки или аннотирования исходных данных с помощью значимого контекста для создания набора данных подходящий для обучения моделей машинного обучения (ML). В контексте контролируемого обучения алгоритмам требуются примеры, включающие как входные данные (например, изображение), так и ожидаемый результат (метку). Эта помеченная информация служит в качестве базовой истины, выступая в качестве эталоном, по которому оцениваются и улучшаются предсказания модели. Без высококачественной маркировки даже самые сложные архитектуры, такие как Ultralytics YOLO11не могут научиться точно распознавать паттерны или идентифицировать объекты.
Производительность любой системы искусственного интеллекта неразрывно связана с качеством ее обучающих данных. Если метки непоследовательны, неточные или неправильные, модель будет учиться ошибочным ассоциациям - проблема, широко известная в компьютерных науках как "мусор внутрь, мусор наружу". Точная маркировка позволяет моделям хорошо обобщать новые, невидимые данные, что очень важно. что крайне важно для развертывания надежных приложений компьютерного зрения (КВ). Крупнейшие эталонные наборы данных, такие как набор данныхCOCO и ImageNet стали промышленными стандартами именно именно благодаря их обширной и тщательной маркировке.
Конкретный метод маркировки данных во многом зависит от поставленной задачи компьютерного зрения:
Маркировка данных позволяет ИИ работать в сложных, реальных условиях. Два ярких примера включают:
Полезно отличать маркировку от аналогичных терминов, используемых в конвейере подготовки данных:
Хотя ручная маркировка отнимает много времени, в современных рабочих процессах часто используется специализированное программное обеспечение, такое как CVAT (Computer Vision Annotation Tool) или используют активное обучение для ускорения процесса. На сайте Готовящаяся к выпуску платформаUltralytics Platform предназначена для оптимизации всего жизненного цикла, начиная с поиска данных и заканчивая автоматическим аннотированием.
Следующий фрагмент на Python демонстрирует, как обучить модель YOLO11 , используя предварительно помеченный набор данных.
(coco8.yaml). Процесс обучения полностью зависит от наличия точных меток, заданных в файле конфигурации
файле конфигурации набора данных.
from ultralytics import YOLO
# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# The model updates its weights based on the labeled data provided