Khám phá vai trò quan trọng của việc gán nhãn dữ liệu (data labeling) trong machine learning, quy trình, thách thức và các ứng dụng thực tế của nó trong phát triển AI.
Gắn nhãn dữ liệu là quá trình cơ bản gắn nhãn hoặc chú thích dữ liệu thô với ngữ cảnh có ý nghĩa để tạo ra một tập dữ liệu phù hợp cho việc huấn luyện các mô hình học máy (ML) . Trong bối cảnh học có giám sát , các thuật toán yêu cầu các ví dụ bao gồm cả dữ liệu đầu vào (chẳng hạn như hình ảnh) và đầu ra dự kiến (nhãn). Thông tin được gắn nhãn này đóng vai trò là dữ liệu nền tảng , là tiêu chuẩn xác định để đo lường và cải thiện các dự đoán của mô hình. Nếu không có gắn nhãn chất lượng cao, ngay cả những kiến trúc tinh vi nhất, chẳng hạn như Ultralytics YOLO11 , cũng không thể học cách nhận dạng chính xác các mẫu hoặc xác định đối tượng.
Hiệu suất của bất kỳ hệ thống AI nào đều gắn liền chặt chẽ với chất lượng dữ liệu huấn luyện của nó. Nếu các nhãn không nhất quán, không chính xác hoặc không đúng, mô hình sẽ học được các liên kết lỗi - một vấn đề thường được biết đến trong khoa học máy tính là "đầu vào rác, đầu ra rác". Việc gắn nhãn chính xác cho phép các mô hình khái quát hóa tốt với dữ liệu mới, chưa được biết đến, điều này rất quan trọng để triển khai các ứng dụng thị giác máy tính (CV) mạnh mẽ. Các bộ dữ liệu chuẩn chính như bộ dữ liệu COCO và ImageNet đã trở thành tiêu chuẩn công nghiệp chính xác nhờ vào việc gắn nhãn rộng rãi và cẩn thận của chúng.
Phương pháp dán nhãn dữ liệu cụ thể phụ thuộc rất nhiều vào nhiệm vụ thị giác máy tính dự định:
Việc gắn nhãn dữ liệu cho phép AI hoạt động trong các môi trường thực tế phức tạp. Hai ví dụ nổi bật bao gồm:
Sẽ rất hữu ích khi phân biệt nhãn với các thuật ngữ tương tự được sử dụng trong quy trình chuẩn bị dữ liệu:
Mặc dù việc gắn nhãn thủ công tốn nhiều thời gian, các quy trình làm việc hiện đại thường sử dụng phần mềm chuyên dụng như CVAT (Công cụ Chú thích Thị giác Máy tính) hoặc tận dụng học tập chủ động để tăng tốc quy trình. Nền tảng Ultralytics sắp ra mắt được thiết kế để hợp lý hóa toàn bộ vòng đời này, từ việc thu thập dữ liệu đến chú thích tự động.
Sau đây là Python đoạn trích minh họa cách đào tạo một YOLO11 mô hình sử dụng tập dữ liệu được gắn nhãn trước (coco8.yaml). Quá trình đào tạo hoàn toàn dựa vào sự tồn tại của các nhãn chính xác được xác định trong tệp cấu hình tập dữ liệu.
from ultralytics import YOLO
# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# The model updates its weights based on the labeled data provided