Data Labeling
Изучи основы разметки данных для машинного обучения. Узнай ключевые типы, такие как детекция объектов, и способы ускорения рабочих процессов с помощью Ultralytics YOLO26.
Разметка данных — это фундаментальный процесс идентификации необработанных данных, таких как изображения, кадры видео, текст или аудио, и добавление к ним информативных тегов или метаданных для обеспечения контекста. В сфере machine learning (ML) алгоритмы не могут самостоятельно понимать физический мир; им нужен «учитель», который будет их направлять. Это руководство предоставляется в форме размеченных наборов данных, используемых при supervised learning. Метки служат в качестве ground truth, представляя правильные ответы, которые модель стремится предсказать. Независимо от того, обучаешь ли ты простой классификатор или сложную архитектуру, например Ultralytics YOLO26, точность, согласованность и качество этих меток являются основными детерминантами успеха модели.
Link to this sectionРазметка данных против аннотирования данных#
Хотя в повседневной речи эти термины часто используются как синонимы, существует тонкое различие, которое стоит отметить. «Разметка данных» (data labeling) обычно относится к широкому действию присвоения категории или тега единице данных (например, пометка письма как «спам»). Напротив, data annotation чаще относится к computer vision (CV) и включает в себя точное выделение объектов с помощью рамок ограничителей (bounding boxes), многоугольников или ключевых точек. Однако в большинстве рабочих процессов ML operations (MLOps) оба термина описывают создание высококачественных training data.
Link to this sectionКлючевые типы в computer vision#
Метод разметки меняется в зависимости от задачи, которую должна выполнять модель. Распространенные типы включают:
- Image Classification: Присвоение одной метки всему изображению, например, определение погодных условий как «облачно» или «солнечно».
- Object Detection: Отрисовка 2D bounding boxes вокруг отдельных объектов, чтобы научить модель тому, что это за объект и где он находится.
- Instance Segmentation: Создание попиксельно точных масок или polygons вокруг объектов, что необходимо для определения точных форм и границ.
- Pose Estimation: Отметка определенных keypoints на объекте, таких как скелетные суставы, для анализа движения или позы.
Link to this sectionРеальные приложения#
Польза разметки данных распространяется практически на каждую отрасль, использующую AI.
-
Автономные транспортные средства: Беспилотные автомобили полагаются на огромные наборы данных, где каждый автомобиль, пешеход, дорожный знак и разметка полосы движения тщательно размечены. Эти размеченные данные позволяют системе восприятия безопасно перемещаться в сложных условиях. Компании, занимающиеся autonomous vehicle, вкладывают значительные средства в разметку на уровне пикселей для обеспечения соответствия требованиям безопасности.
-
Точное земледелие: В современном фермерстве AI in agriculture используется для обнаружения болезней сельскохозяйственных культур или мониторинга стадий роста. Фермеры используют модели, обученные на размеченных изображениях «здоровых» и «пораженных болезнью» листьев, для автоматизации обработки, сокращая использование химикатов и повышая урожайность.
Link to this sectionРабочий процесс разметки#
Создание размеченного набора данных часто является самой трудоемкой частью проекта AI. Процесс обычно включает подход «человек в контуре» (Human-in-the-Loop, HITL), где аннотаторы проверяют метки для обеспечения высокой точности. Современные рабочие процессы используют такие инструменты, как Ultralytics Platform, которая упрощает управление наборами данных и позволяет командам совместно работать над аннотациями. Также могут применяться передовые методы, такие как active learning, при которых модель предварительно размечает данные, а люди исправляют только прогнозы с низкой степенью уверенности, что значительно ускоряет процесс.
Следующий пример демонстрирует, как использовать предварительно обученную модель YOLO26 для автоматической генерации меток (авторазметки) для нового изображения, которые затем могут быть скорректированы людьми:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





