Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Gán Nhãn Dữ Liệu (Data Labeling)

Khám phá vai trò quan trọng của việc gán nhãn dữ liệu (data labeling) trong machine learning, quy trình, thách thức và các ứng dụng thực tế của nó trong phát triển AI.

Gắn nhãn dữ liệu là quá trình xác định dữ liệu thô (chẳng hạn như hình ảnh, tệp văn bản hoặc video) và thêm một hoặc nhiều nhãn hoặc chú thích mang tính thông tin để cung cấp ngữ cảnh, cho phép mô hình học máy học hỏi từ đó. Quá trình này là nền tảng của học có giám sát, trong đó tập dữ liệu được gắn nhãn đóng vai trò là "chân lý cơ bản" mà thuật toán sử dụng để tự đào tạo nhằm đưa ra các dự đoán chính xác trên dữ liệu mới, chưa được gắn nhãn. Gắn nhãn dữ liệu chất lượng cao là một trong những bước quan trọng và tốn thời gian nhất trong việc xây dựng một mô hình AI mạnh mẽ, vì hiệu suất của mô hình phụ thuộc trực tiếp vào chất lượng và độ chính xác của các nhãn mà nó học được.

Tại sao việc gán nhãn dữ liệu (Data Labeling) lại quan trọng?

Gắn nhãn dữ liệu cung cấp nền tảng cần thiết để các mô hình hiểu và diễn giải thế giới. Trong thị giác máy tính (CV), nhãn dạy một mô hình nhận biết một đối tượng là gì và nó nằm ở đâu trong một hình ảnh. Nếu không có nhãn chính xác, một mô hình không thể học được các mẫu cần thiết để thực hiện nhiệm vụ của mình, dẫn đến độ chính xác kém và không đáng tin cậy. Chất lượng của dữ liệu huấn luyện, được tạo ra thông qua việc gắn nhãn, quyết định trực tiếp chất lượng của AI thu được. Nguyên tắc này thường được tóm tắt là "rác vào, rác ra". Các tập dữ liệu chuẩn được gắn nhãn tốt như COCOImageNet đã đóng vai trò quan trọng trong việc nâng cao trình độ kỹ thuật trong thị giác máy tính.

Các loại Gán Nhãn Dữ Liệu trong Computer Vision

Các tác vụ CV khác nhau yêu cầu các loại chú thích khác nhau. Các phương pháp phổ biến nhất bao gồm:

Các Ứng dụng Thực tế

  1. Xe tự hành: Gán nhãn dữ liệu (Data labeling) là điều cần thiết để huấn luyện các hệ thống nhận thức của xe tự lái. Người gán nhãn (annotator) tỉ mỉ gán nhãn hàng triệu hình ảnh và khung hình video, vẽ các hộp giới hạn (bounding box) xung quanh xe hơi, người đi bộ và người đi xe đạp, phân đoạn vạch kẻ đường và phân loại biển báo giao thông. Dữ liệu được gán nhãn phong phú này cho phép các mô hình như Ultralytics YOLO11 học cách điều hướng các môi trường đô thị phức tạp một cách an toàn. Công việc được thực hiện bởi các công ty như Waymo phần lớn dựa vào các bộ dữ liệu lớn, được gán nhãn chính xác. Bạn có thể tìm hiểu thêm về lĩnh vực này trên trang giải pháp AI trong ngành ô tô của chúng tôi.
  2. Phân tích ảnh y tế: Trong AI trong chăm sóc sức khỏe, các bác sĩ радиologist và các chuyên gia y tế dán nhãn các bản quét như MRI, CT và X-quang để xác định khối u, tổn thương và các bất thường khác. Ví dụ: trên bộ dữ liệu khối u não, các chuyên gia sẽ phác thảo ranh giới chính xác của khối u. Dữ liệu được dán nhãn này được sử dụng để đào tạo các mô hình có thể hỗ trợ chẩn đoán sớm, có khả năng giảm khối lượng công việc cho các chuyên gia y tế và cải thiện kết quả cho bệnh nhân. Hội радиologist Bắc Mỹ (RSNA) tích cực khám phá vai trò của AI trong chẩn đoán y tế.

Gắn nhãn Dữ liệu so với Các Khái niệm Liên quan

Gắn nhãn dữ liệu thường được thực hiện cùng với các tác vụ chuẩn bị dữ liệu khác, nhưng điều quan trọng là phải phân biệt giữa chúng:

  • Tăng cường dữ liệu (Data Augmentation): Kỹ thuật này mở rộng một cách nhân tạo tập dữ liệu huấn luyện bằng cách tạo ra các phiên bản sửa đổi của dữ liệu đã được gắn nhãn (ví dụ: xoay, lật hoặc thay đổi độ sáng của hình ảnh). Tăng cường làm tăng tính đa dạng của dữ liệu nhưng phụ thuộc vào một tập dữ liệu được gắn nhãn ban đầu. Một tổng quan về tăng cường dữ liệu (overview of data augmentation) cung cấp thêm chi tiết.
  • Làm sạch dữ liệu (Data Cleaning): Quá trình này bao gồm việc xác định và sửa chữa hoặc loại bỏ các lỗi, sự không nhất quán và không chính xác trong một tập dữ liệu. Mặc dù điều này có thể bao gồm việc sửa các nhãn không chính xác, nhưng làm sạch dữ liệu là một bước đảm bảo chất lượng, trong khi gắn nhãn dữ liệu là hành động ban đầu tạo ra các chú thích. Làm sạch dữ liệu trên Wikipedia (Data cleansing on Wikipedia) cung cấp thêm ngữ cảnh.
  • Tiền xử lý dữ liệu (Data Preprocessing): Đây là một thuật ngữ chung rộng hơn bao gồm gắn nhãn dữ liệu, làm sạch và các chuyển đổi khác như chuẩn hóa (normalization) hoặc thay đổi kích thước hình ảnh để chuẩn bị chúng cho một mô hình. Gắn nhãn là một bước cụ thể, quan trọng trong quy trình tiền xử lý lớn hơn.

Những thách thức và giải pháp

Mặc dù tầm quan trọng của nó, việc gán nhãn dữ liệu chứa đựng đầy thách thức, bao gồm chi phí cao, đầu tư thời gian đáng kể và khả năng xảy ra lỗi hoặc chủ quan của con người. Đảm bảo chất lượng và tính nhất quán của nhãn trên các nhóm người chú thích lớn là một trở ngại lớn về mặt hậu cần.

Để hợp lý hóa quy trình này, các nhóm thường sử dụng các công cụ chú thích chuyên dụng như CVAT hoặc các nền tảng như Ultralytics HUB, cung cấp một môi trường cộng tác để quản lý bộ dữ liệu và quy trình làm việc gắn nhãn. Hơn nữa, các kỹ thuật tiên tiến như Active Learning có thể giúp bằng cách lựa chọn một cách thông minh các điểm dữ liệu nhiều thông tin nhất để được gắn nhãn, tối ưu hóa việc sử dụng thời gian và nỗ lực của người chú thích. Như được trình bày chi tiết trong một bài viết của Phòng thí nghiệm AI Stanford, việc tập trung vào chất lượng dữ liệu là chìa khóa để AI thành công.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard