Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Gán nhãn dữ liệu (Data Annotation)

Chú thích dữ liệu (data annotation) là gì? Tìm hiểu cách dán nhãn dữ liệu bằng bounding box hoặc đa giác rất cần thiết để huấn luyện các mô hình AI và thị giác máy tính chính xác.

Chú thích dữ liệu là quá trình quan trọng của việc dán nhãn, gắn thẻ hoặc phiên âm dữ liệu thô để cung cấp ngữ cảnh cần thiết cho mô hình học máy (ML) để học hỏi. Bước này là nền tảng của học có giám sát , một phương pháp trong đó các thuật toán được huấn luyện trên các cặp đầu vào-đầu ra để nhận dạng các mẫu và đưa ra dự đoán. Thông tin được dán nhãn đóng vai trò là sự thật cơ bản , đại diện cho kết quả lý tưởng mà mô hình cố gắng tái tạo. Nếu không có chú thích chính xác và nhất quán, ngay cả các kiến trúc tiên tiến như Ultralytics YOLO26 cũng không thể hoạt động hiệu quả, vì độ chính xác của hệ thống phụ thuộc trực tiếp vào chất lượng dữ liệu huấn luyện của nó.

Các loại chú thích phổ biến trong thị giác máy tính

Trong lĩnh vực thị giác máy tính (CV) , chú thích dữ liệu bao gồm việc đánh dấu các đặc điểm cụ thể trong hình ảnh hoặc khung hình video. Phương pháp được sử dụng phụ thuộc rất nhiều vào nhiệm vụ cụ thể mà mô hình được xây dựng để thực hiện.

  • Phát hiện đối tượng : Người chú thích vẽ các hộp giới hạn 2D xung quanh các đối tượng cần quan tâm, chẳng hạn như xe cộ hoặc người đi bộ. Điều này giúp mô hình hiểu đối tượng đó là gì và vị trí của nó trong khung cảnh.
  • Phân đoạn đối tượng : Kỹ thuật này bao gồm việc vẽ các đa giác chính xác xung quanh các cạnh của một đối tượng. Không giống như các hình hộp đơn giản, phân đoạn lập bản đồ hình dạng và đường viền chính xác, điều này rất quan trọng đối với các tác vụ đòi hỏi độ chính xác cao như gắp vật bằng robot .
  • Ước tính tư thế : Người chú thích đánh dấu các điểm mấu chốt cụ thể trên đối tượng, chẳng hạn như các khớp của cơ thể người (khuỷu tay, đầu gối, vai). Điều này cho phép các mô hình track chuyển động, tư thế, và thậm chí phân tích hiệu suất thể thao.
  • Phân loại hình ảnh : Đây là hình thức đơn giản nhất, trong đó một nhãn danh mục duy nhất (ví dụ: "lá khỏe mạnh" so với "lá bệnh") được gán cho toàn bộ hình ảnh.

Các Ứng dụng Thực tế

Việc chú thích dữ liệu giúp thu hẹp khoảng cách giữa dữ liệu cảm biến thô và việc ra quyết định thông minh trong nhiều ngành công nghiệp khác nhau.

  1. Nông nghiệp thông minh: Trong ứng dụng trí tuệ nhân tạo trong nông nghiệp , các tập dữ liệu khổng lồ về hình ảnh cây trồng được chú thích để xác định cỏ dại, sâu bệnh hoặc sự thiếu hụt chất dinh dưỡng. Bằng cách huấn luyện các mô hình trên dữ liệu này, nông dân có thể tự động hóa việc giám sát cây trồng và chỉ áp dụng các biện pháp xử lý khi cần thiết, giảm thiểu lãng phí và cải thiện năng suất.
  2. Lái xe tự động: Xe tự lái dựa trên các thư viện dữ liệu khổng lồ được chú thích, trong đó mọi vạch kẻ làn đường, biển báo giao thông và chướng ngại vật đều được dán nhãn. Dữ liệu từ camera và cảm biến LiDAR được xử lý để huấn luyện hệ thống nhận thức của xe, đảm bảo xe có thể điều hướng an toàn trong các tình huống giao thông phức tạp.

Phân biệt các khái niệm liên quan

Việc phân biệt giữa chú thích dữ liệu và các thuật ngữ khác thường được sử dụng trong quy trình chuẩn bị tập dữ liệu là rất hữu ích.

  • Chú thích so với Ghi nhãn dữ liệu : Mặc dù thường được sử dụng thay thế cho nhau, "ghi nhãn" thường đề cập đến các tác vụ phân loại đơn giản hơn (gán thẻ), trong khi "chú thích" hàm ý việc tạo ra siêu dữ liệu phong phú hơn, chẳng hạn như vẽ hình học phức tạp hoặc đánh dấu mốc thời gian trong video.
  • Chú thích so với Tăng cường dữ liệu : Chú thích tạo ra dữ liệu tham chiếu ban đầu. Tăng cường là một quá trình tiếp theo nhằm mở rộng tập dữ liệu một cách nhân tạo bằng cách áp dụng các phép biến đổi (như xoay hoặc thay đổi màu sắc) cho các hình ảnh đã được chú thích để cải thiện độ bền vững của mô hình.
  • So sánh chú thích và học chủ động : Học chủ động là một chiến lược trong đó mô hình xác định những điểm dữ liệu cụ thể nào gây nhầm lẫn nhất và chỉ yêu cầu con người chú thích cho những ví dụ đó, tối ưu hóa thời gian và chi phí của quá trình chú thích.

Công cụ và quy trình làm việc

Việc tạo ra các chú thích chất lượng cao thường yêu cầu phần mềm chuyên dụng xuất dữ liệu ở các định dạng chuẩn như JSON hoặc XML . Các quy trình làm việc hiện đại ngày càng hướng tới các môi trường tích hợp như Nền tảng Ultralytics , giúp đơn giản hóa việc thu thập dữ liệu, tự động chú thích và huấn luyện mô hình trong một giao diện duy nhất.

Sau khi dữ liệu được chú thích, nó sẽ được tham chiếu trong một tệp cấu hình (thường là YAML) để huấn luyện. Ví dụ sau đây minh họa cách huấn luyện mô hình YOLO26 bằng cách sử dụng tập dữ liệu COCO8 tiêu chuẩn, vốn đã có sẵn các chú thích.

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The YAML file points to the annotated images and labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay