Data Labeling

Изучи основы разметки данных для машинного обучения. Узнай ключевые типы, такие как детекция объектов, и способы ускорения рабочих процессов с помощью Ultralytics YOLO26.

Разметка данных — это фундаментальный процесс идентификации необработанных данных, таких как изображения, кадры видео, текст или аудио, и добавление к ним информативных тегов или метаданных для обеспечения контекста. В сфере machine learning (ML) алгоритмы не могут самостоятельно понимать физический мир; им нужен «учитель», который будет их направлять. Это руководство предоставляется в форме размеченных наборов данных, используемых при supervised learning. Метки служат в качестве ground truth, представляя правильные ответы, которые модель стремится предсказать. Независимо от того, обучаешь ли ты простой классификатор или сложную архитектуру, например Ultralytics YOLO26, точность, согласованность и качество этих меток являются основными детерминантами успеха модели.

Link to this sectionРазметка данных против аннотирования данных#

Хотя в повседневной речи эти термины часто используются как синонимы, существует тонкое различие, которое стоит отметить. «Разметка данных» (data labeling) обычно относится к широкому действию присвоения категории или тега единице данных (например, пометка письма как «спам»). Напротив, data annotation чаще относится к computer vision (CV) и включает в себя точное выделение объектов с помощью рамок ограничителей (bounding boxes), многоугольников или ключевых точек. Однако в большинстве рабочих процессов ML operations (MLOps) оба термина описывают создание высококачественных training data.

Link to this sectionКлючевые типы в computer vision#

Метод разметки меняется в зависимости от задачи, которую должна выполнять модель. Распространенные типы включают:

Image Classification: Присвоение одной метки всему изображению, например, определение погодных условий как «облачно» или «солнечно».
Object Detection: Отрисовка 2D bounding boxes вокруг отдельных объектов, чтобы научить модель тому, что это за объект и где он находится.
Instance Segmentation: Создание попиксельно точных масок или polygons вокруг объектов, что необходимо для определения точных форм и границ.
Pose Estimation: Отметка определенных keypoints на объекте, таких как скелетные суставы, для анализа движения или позы.

Link to this sectionРеальные приложения#

Польза разметки данных распространяется практически на каждую отрасль, использующую AI.

Автономные транспортные средства: Беспилотные автомобили полагаются на огромные наборы данных, где каждый автомобиль, пешеход, дорожный знак и разметка полосы движения тщательно размечены. Эти размеченные данные позволяют системе восприятия безопасно перемещаться в сложных условиях. Компании, занимающиеся autonomous vehicle, вкладывают значительные средства в разметку на уровне пикселей для обеспечения соответствия требованиям безопасности.
Точное земледелие: В современном фермерстве AI in agriculture используется для обнаружения болезней сельскохозяйственных культур или мониторинга стадий роста. Фермеры используют модели, обученные на размеченных изображениях «здоровых» и «пораженных болезнью» листьев, для автоматизации обработки, сокращая использование химикатов и повышая урожайность.

Link to this sectionРабочий процесс разметки#

Создание размеченного набора данных часто является самой трудоемкой частью проекта AI. Процесс обычно включает подход «человек в контуре» (Human-in-the-Loop, HITL), где аннотаторы проверяют метки для обеспечения высокой точности. Современные рабочие процессы используют такие инструменты, как Ultralytics Platform, которая упрощает управление наборами данных и позволяет командам совместно работать над аннотациями. Также могут применяться передовые методы, такие как active learning, при которых модель предварительно размечает данные, а люди исправляют только прогнозы с низкой степенью уверенности, что значительно ускоряет процесс.

Следующий пример демонстрирует, как использовать предварительно обученную модель YOLO26 для автоматической генерации меток (авторазметки) для нового изображения, которые затем могут быть скорректированы людьми:

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Data Labeling

Link to this sectionРазметка данных против аннотирования данных#

Link to this sectionКлючевые типы в computer vision#

Link to this sectionРеальные приложения#

Link to this sectionРабочий процесс разметки#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!