Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Gán nhãn dữ liệu (Data Annotation)

Chú thích dữ liệu (data annotation) là gì? Tìm hiểu cách dán nhãn dữ liệu bằng bounding box hoặc đa giác rất cần thiết để huấn luyện các mô hình AI và thị giác máy tính chính xác.

Chú thích dữ liệu là quá trình gắn nhãn, gắn thẻ hoặc phiên âm dữ liệu thô để cung cấp ngữ cảnh mà mô hình học máy (ML) có thể hiểu được. Bước này là nền tảng của học có giám sát , trong đó các thuật toán dựa vào các ví dụ được gắn nhãn để học các mẫu và đưa ra dự đoán. Dữ liệu được chú thích đóng vai trò là dữ liệu nền , đại diện cho câu trả lời "đúng" mà mô hình cố gắng sao chép trong quá trình huấn luyện. Nếu không có chú thích chính xác, ngay cả những kiến trúc phức tạp như Ultralytics YOLO11 cũng không thể hoạt động hiệu quả, vì hiệu suất của mô hình gắn liền với chất lượng dữ liệu huấn luyện .

Vai trò của Gán nhãn (Annotation) trong Thị giác máy tính

Trong lĩnh vực thị giác máy tính (CV) , chú thích dữ liệu liên quan đến việc đánh dấu các đặc điểm cụ thể trong hình ảnh hoặc khung hình video. Các tác vụ khác nhau yêu cầu các kiểu chú thích riêng biệt, mỗi kiểu cung cấp một mức độ chi tiết riêng cho hệ thống.

  • Phát hiện Đối tượng : Người chú thích vẽ các hộp giới hạn 2D xung quanh các đối tượng quan tâm, chẳng hạn như ô tô hoặc người đi bộ. Điều này giúp mô hình biết đối tượng là vị trí của nó.
  • Phân đoạn thực thể : Kỹ thuật này yêu cầu theo dõi các đa giác chính xác xung quanh các đối tượng. Không giống như hộp giới hạn, phân đoạn ánh xạ hình dạng và đường viền chính xác của một thực thể, điều này rất quan trọng đối với các ứng dụng như robot cầm nắm .
  • Ước tính tư thế : Người chú thích đánh dấu các "điểm chính" cụ thể trên một chủ thể, chẳng hạn như các khớp trên cơ thể người (khuỷu tay, đầu gối, vai). Điều này cho phép người mẫu track chuyển động và tư thế.
  • Hộp giới hạn định hướng (OBB) : Được sử dụng cho các đối tượng không thẳng hàng với trục ảnh, chẳng hạn như tàu thuyền trong ảnh vệ tinh hoặc kiện hàng trên băng chuyền. Các hộp này có thể xoay để phù hợp với hướng của đối tượng.
  • Phân loại hình ảnh : Hình thức chú thích đơn giản nhất, trong đó một nhãn duy nhất (ví dụ: "nắng", "mưa") được gán cho toàn bộ hình ảnh.

Chú thích thường được lưu ở các định dạng có cấu trúc như JSON , XML hoặc các tệp văn bản đơn giản (ví dụ: YOLO định dạng), sau đó được phần mềm đào tạo phân tích cú pháp.

Các Ứng dụng Thực tế

Chú thích dữ liệu hỗ trợ vô số công nghệ hiện đại bằng cách thu hẹp khoảng cách giữa cảm biến thô và khả năng ra quyết định thông minh.

  1. Xe tự hành : Xe tự lái phụ thuộc vào các tập dữ liệu khổng lồ, trong đó mọi vạch kẻ đường, biển báo giao thông và chướng ngại vật đều được chú thích. Dữ liệu từ camera và cảm biến LiDAR được gắn nhãn để huấn luyện hệ thống nhận thức của xe điều hướng an toàn. Mức độ chi tiết này rất quan trọng để phát triển AI mạnh mẽ trong các giải pháp ô tô .
  2. Chẩn đoán y khoa: Trong AI chăm sóc sức khỏe , các bác sĩ X-quang chú thích ảnh chụp MRI hoặc X-quang để làm nổi bật khối u và gãy xương. Những hình ảnh y khoa được chú thích này cho phép các mô hình hỗ trợ bác sĩ bằng cách đánh dấu các bất thường tiềm ẩn với độ nhạy cao.
  3. Bán lẻ thông minh: Hệ thống thanh toán tự động sử dụng chú thích để nhận dạng sản phẩm. Bằng cách dán nhãn hàng ngàn mặt hàng tạp hóa, hệ thống có thể tạo điều kiện thuận lợi cho trải nghiệm mua sắm liền mạch. Xem thêm về AI trong bán lẻ .

So sánh với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt chú thích dữ liệu với các thuật ngữ khác thường được sử dụng trong quy trình chuẩn bị dữ liệu.

  • Chú thích so với Ghi nhãn Dữ liệu : Hai thuật ngữ này thường được dùng thay thế cho nhau. Tuy nhiên, "ghi nhãn" thường gắn liền với các tác vụ phân loại đơn giản (gán một danh mục), trong khi "chú thích" thường ngụ ý việc tạo siêu dữ liệu phức tạp hơn, chẳng hạn như vẽ hình học (đa giác, hộp) hoặc đánh dấu thời gian trong video.
  • Chú thích so với Tăng cường Dữ liệu : Chú thích tạo nhãn ban đầu cho một tập dữ liệu. Tăng cường dữ liệu là một quy trình riêng biệt, mở rộng tập dữ liệu này một cách nhân tạo bằng cách sửa đổi các hình ảnh được chú thích hiện có (ví dụ: lật, xoay hoặc thay đổi độ sáng) để cải thiện độ tin cậy của mô hình.
  • Chú thích so với Học tập chủ động : Học tập chủ động là chiến lược trong đó mô hình xác định những điểm dữ liệu mà nó bối rối nhất và yêu cầu chú thích của con người chỉ cho những ví dụ cụ thể đó, tối ưu hóa ngân sách chú thích.

Công cụ và quy trình làm việc

Việc tạo chú thích chất lượng cao thường đòi hỏi các công cụ chuyên dụng. Các tùy chọn mã nguồn mở như CVAT (Công cụ Chú thích Thị giác Máy tính)Label Studio cung cấp giao diện để vẽ hộp và đa giác. Đối với các hoạt động quy mô lớn, các nhóm có thể chuyển sang các môi trường tích hợp như Ultralytics Nền tảng giúp hợp lý hóa vòng đời từ nguồn dữ liệu đến triển khai mô hình.

Sau khi dữ liệu được chú thích, nó có thể được sử dụng để huấn luyện mô hình. Ví dụ sau đây minh họa cách huấn luyện một mô hình. YOLO11 mô hình sử dụng tập dữ liệu được xác định trong tệp YAML, trỏ đến hình ảnh và nhãn có chú thích.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train on the COCO8 dataset, which contains pre-annotated images
# The 'data' argument references a YAML file defining dataset paths and classes
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay