Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Gán nhãn dữ liệu (Data Annotation)

Chú thích dữ liệu (data annotation) là gì? Tìm hiểu cách dán nhãn dữ liệu bằng bounding box hoặc đa giác rất cần thiết để huấn luyện các mô hình AI và thị giác máy tính chính xác.

Gán nhãn dữ liệu là quá trình gắn nhãn hoặc gắn thẻ dữ liệu thô để giúp các mô hình học máy (ML) hiểu và học hỏi từ nó. Bước quan trọng này chuyển đổi dữ liệu phi cấu trúc, như hình ảnh hoặc video, thành thông tin có cấu trúc mà các thuật toán có thể diễn giải. Trong bối cảnh của học có giám sát (supervised learning), các chú thích này đóng vai trò là "ground truth" (sự thật cơ bản) — câu trả lời chính xác mà mô hình sử dụng để tự đào tạo. Chất lượng và độ chính xác của việc gán nhãn dữ liệu ảnh hưởng trực tiếp đến hiệu suất và độ tin cậy của mô hình trí tuệ nhân tạo (AI) thu được. Nếu không có các chú thích chính xác, ngay cả những mô hình tiên tiến nhất cũng sẽ không học được các mẫu một cách hiệu quả.

Vai trò của Gán nhãn (Annotation) trong Thị giác máy tính

Trong computer vision (CV), chú thích dữ liệu là nền tảng để dạy các mô hình "nhìn" và diễn giải thế giới. Nó liên quan đến việc người chú thích sử dụng phần mềm chuyên dụng để xác định và đánh dấu các đối tượng quan tâm trong dữ liệu trực quan. Có một số loại chú thích, mỗi loại phù hợp với các tác vụ CV khác nhau:

  • Chú thích hộp giới hạn (Bounding Box Annotation): Đây là hình thức phổ biến nhất, được sử dụng cho phát hiện đối tượng (object detection). Người chú thích vẽ các hộp hình chữ nhật xung quanh các đối tượng riêng lẻ và gán nhãn lớp (ví dụ: "ô tô", "người").
  • Phân đoạn đa giác: Đối với các tác vụ đòi hỏi độ chính xác cao hơn, như phân đoạn thể hiện, người chú thích theo dõi đường viền chính xác của từng đối tượng. Điều này cho phép mô hình hiểu hình dạng và ranh giới cụ thể của một đối tượng, ngay cả khi các đối tượng chồng lên nhau.
  • Phân Vùng Ngữ Nghĩa (Semantic Segmentation): Phương pháp này bao gồm việc phân loại từng pixel đơn lẻ trong một hình ảnh vào một danh mục cụ thể (ví dụ: "bầu trời", "đường", "tòa nhà"). Không giống như phân vùng thể hiện (instance segmentation), nó không phân biệt giữa các thể hiện khác nhau của cùng một lớp đối tượng.
  • Gán nhãn điểm đặc trưng (Keypoint Annotation): Được sử dụng cho ước tính tư thế (pose estimation), kỹ thuật này bao gồm việc đánh dấu các điểm quan trọng (điểm đặc trưng) trên một đối tượng, chẳng hạn như các khớp của cơ thể người hoặc các góc của khuôn mặt.
  • Phân loại: Hình thức đơn giản nhất, trong đó toàn bộ hình ảnh được gán một nhãn duy nhất. Đây là nền tảng cho các tác vụ phân loại ảnh.

Việc lựa chọn phương pháp chú thích phụ thuộc vào các mục tiêu cụ thể của dự án CV, được nêu trong hướng dẫn xác định mục tiêu dự án.

Các Ứng dụng Thực tế

  1. Xe tự hành: Xe tự lái dựa vào các mô hình được huấn luyện trên dữ liệu được chú thích rộng rãi. Người chú thích dán nhãn mọi thứ, từ người đi bộ và người đi xe đạp đến đèn giao thông, vạch kẻ đường và biển báo đường bộ trong hàng triệu hình ảnh và đám mây điểm LiDAR. Dữ liệu huấn luyện chi tiết này cho phép hệ thống nhận thức của xe hiểu môi trường của nó và đưa ra các quyết định lái xe an toàn. Các bộ dữ liệu như Argoverse rất quan trọng để phát triển các giải pháp AI mạnh mẽ trong ô tô.
  2. Phân tích hình ảnh y tế: Trong AI cho chăm sóc sức khỏe, các bác sĩ радиолог và các chuyên gia y tế chú thích ảnh chụp y tế như MRI, CT và X-quang để làm nổi bật các khối u, tổn thương, gãy xương hoặc các bất thường khác. Các tập dữ liệu được chú thích này, chẳng hạn như tập dữ liệu Brain Tumor công khai, được sử dụng để huấn luyện các mô hình như Ultralytics YOLO có thể hỗ trợ chẩn đoán sớm và lập kế hoạch điều trị. Hội радиолог Bắc Mỹ (RSNA) cung cấp một số tập dữ liệu như vậy cho nghiên cứu.

Gán nhãn dữ liệu so với các khái niệm liên quan

Gán nhãn dữ liệu thường được thảo luận cùng với các kỹ thuật chuẩn bị dữ liệu khác, nhưng chúng phục vụ các mục đích khác nhau.

  • Gán nhãn dữ liệu so với Đánh dấu dữ liệu: Hai thuật ngữ này thường được sử dụng thay thế cho nhau và đề cập đến cùng một quy trình cốt lõi. "Gán nhãn" thường được ưu tiên hơn trong thị giác máy tính để mô tả các tác vụ phức tạp hơn như vẽ đa giác hoặc keypoint, trong khi "đánh dấu" có thể được sử dụng cho các tác vụ đơn giản hơn như phân loại. Tuy nhiên, cho tất cả các mục đích thực tế, chúng là đồng nghĩa. Để có cái nhìn sâu sắc hơn, bạn có thể đọc thêm trong phần giải thích của chúng tôi về việc đánh dấu dữ liệu cho thị giác máy tính.
  • Gán nhãn dữ liệu so với Tăng cường dữ liệu: Gán nhãn là quá trình tạo ra các nhãn ground truth ban đầu. Mặt khác, tăng cường dữ liệu là một kỹ thuật được sử dụng sau khi gán nhãn để tăng kích thước của tập dữ liệu một cách giả tạo bằng cách tạo ra các phiên bản sửa đổi của hình ảnh đã được gán nhãn (ví dụ: xoay, lật hoặc thay đổi độ sáng).
  • Gán nhãn dữ liệu so với Làm sạch dữ liệu: Làm sạch dữ liệu bao gồm việc sửa lỗi, loại bỏ các bản sao và xử lý các giá trị bị thiếu trong một tập dữ liệu để đảm bảo chất lượng tổng thể của nó. Việc làm sạch có thể xảy ra trước khi gán nhãn (ví dụ: loại bỏ hình ảnh bị mờ) hoặc sau đó (ví dụ: sửa các nhãn không chính xác), nhưng nó khác biệt với hành động thêm các nhãn mới. Chất lượng dữ liệu cao là điều cần thiết để gán nhãn hiệu quả.

Quy trình chú thích có thể được quản lý bằng nhiều công cụ khác nhau, từ các tùy chọn mã nguồn mở như CVAT đến các nền tảng thương mại như Scale AILabelbox. Các nền tảng như Ultralytics HUB cung cấp các giải pháp tích hợp để quản lý bộ dữ liệu, huấn luyện mô hình và hợp lý hóa toàn bộ quy trình làm việc từ thu thập và chú thích dữ liệu đến triển khai.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard