Chú thích dữ liệu
Chú thích dữ liệu là gì? Tìm hiểu cách gắn nhãn dữ liệu bằng hộp giới hạn hoặc đa giác là yếu tố thiết yếu để đào tạo các mô hình AI và thị giác máy tính chính xác.
Chú thích dữ liệu là quá trình gắn nhãn hoặc gắn thẻ dữ liệu thô để giúp các mô hình học máy (ML) hiểu và học hỏi từ dữ liệu đó. Bước quan trọng này chuyển đổi dữ liệu phi cấu trúc, như hình ảnh hoặc video, thành thông tin có cấu trúc mà các thuật toán có thể diễn giải. Trong bối cảnh học có giám sát , những chú thích này đóng vai trò là "sự thật nền tảng" - những câu trả lời chính xác mà mô hình sử dụng để tự huấn luyện. Chất lượng và độ chính xác của chú thích dữ liệu ảnh hưởng trực tiếp đến hiệu suất và độ tin cậy của mô hình trí tuệ nhân tạo (AI) kết quả. Nếu không có chú thích chính xác, ngay cả những mô hình tiên tiến nhất cũng sẽ không thể học các mẫu một cách hiệu quả.
Vai trò của chú thích trong thị giác máy tính
Trong thị giác máy tính (CV) , chú thích dữ liệu là nền tảng cơ bản để dạy các mô hình "nhìn" và diễn giải thế giới. Nó liên quan đến việc người chú thích sử dụng phần mềm chuyên dụng để xác định và đánh dấu các đối tượng quan tâm trong dữ liệu trực quan. Có một số loại chú thích, mỗi loại phù hợp với các tác vụ CV khác nhau:
- Chú thích hộp giới hạn : Đây là dạng phổ biến nhất, được sử dụng để phát hiện đối tượng . Người chú thích vẽ các hộp hình chữ nhật xung quanh từng đối tượng và gán nhãn lớp (ví dụ: "xe hơi", "người").
- Phân đoạn đa giác: Đối với các tác vụ đòi hỏi độ chính xác cao hơn, chẳng hạn như phân đoạn thực thể , chú thích viên sẽ theo dõi đường viền chính xác của từng đối tượng. Điều này cho phép mô hình hiểu được hình dạng và ranh giới cụ thể của đối tượng, ngay cả khi các đối tượng chồng lên nhau.
- Phân đoạn ngữ nghĩa : Phương pháp này bao gồm việc phân loại từng pixel trong ảnh vào một danh mục cụ thể (ví dụ: "bầu trời", "đường xá", "tòa nhà"). Không giống như phân đoạn thể hiện, phương pháp này không phân biệt giữa các thể hiện khác nhau của cùng một lớp đối tượng.
- Chú thích điểm chính: Được sử dụng để ước tính tư thế , kỹ thuật này bao gồm việc đánh dấu các điểm quan tâm cụ thể (điểm chính) trên một vật thể, chẳng hạn như các khớp của cơ thể người hoặc các góc của khuôn mặt.
- Phân loại: Dạng đơn giản nhất, trong đó toàn bộ hình ảnh được gán một nhãn duy nhất. Đây là nền tảng cho các tác vụ phân loại hình ảnh .
Việc lựa chọn phương pháp chú thích phụ thuộc vào các mục tiêu cụ thể của dự án CV, được nêu trong hướng dẫn xác định mục tiêu dự án .
Ứng dụng trong thế giới thực
- Xe tự hành : Xe tự lái dựa trên các mô hình được đào tạo dựa trên dữ liệu được chú thích chi tiết. Các chú thích viên sẽ gắn nhãn mọi thứ, từ người đi bộ và người đi xe đạp đến đèn giao thông, vạch kẻ đường và biển báo đường bộ trong hàng triệu hình ảnh và đám mây điểm LiDAR . Dữ liệu đào tạo chi tiết này cho phép hệ thống nhận thức của xe hiểu được môi trường xung quanh và đưa ra quyết định lái xe an toàn. Các tập dữ liệu như Argoverse rất quan trọng để phát triển AI mạnh mẽ trong các giải pháp ô tô .
- Phân tích hình ảnh y tế : Trong AI chăm sóc sức khỏe , các bác sĩ X quang và chuyên gia y tế chú thích các hình ảnh chụp cắt lớp như MRI, CT và X-quang để làm nổi bật khối u, tổn thương, gãy xương hoặc các bất thường khác. Các tập dữ liệu được chú thích này, chẳng hạn như tập dữ liệu Khối u Não công khai, được sử dụng để huấn luyện các mô hình như Ultralytics YOLO , có thể hỗ trợ chẩn đoán sớm và lập kế hoạch điều trị. Hiệp hội X quang Bắc Mỹ (RSNA) cung cấp một số tập dữ liệu như vậy cho mục đích nghiên cứu.
Chú thích dữ liệu so với các khái niệm liên quan
Chú thích dữ liệu thường được thảo luận cùng với các kỹ thuật chuẩn bị dữ liệu khác, nhưng chúng phục vụ các mục đích khác nhau.
- Chú thích Dữ liệu so với Ghi nhãn Dữ liệu : Hai thuật ngữ này thường được sử dụng thay thế cho nhau và đề cập đến cùng một quy trình cốt lõi. "Chú thích" thường được sử dụng trong thị giác máy tính để mô tả các tác vụ phức tạp hơn như vẽ đa giác hoặc điểm chính, trong khi "ghi nhãn" có thể được sử dụng cho các tác vụ đơn giản hơn như phân loại. Tuy nhiên, xét về mặt thực tế, chúng là đồng nghĩa. Để tìm hiểu sâu hơn, bạn có thể đọc thêm trong bài giải thích của chúng tôi về ghi nhãn dữ liệu trong thị giác máy tính .
- Chú thích dữ liệu so với Tăng cường dữ liệu : Chú thích là quá trình tạo nhãn dữ liệu thực tế ban đầu. Mặt khác, tăng cường dữ liệu là một kỹ thuật được sử dụng sau khi chú thích để tăng kích thước tập dữ liệu một cách giả tạo bằng cách tạo ra các phiên bản đã sửa đổi của hình ảnh được chú thích (ví dụ: xoay, lật hoặc thay đổi độ sáng).
- Chú thích dữ liệu so với Làm sạch dữ liệu : Làm sạch dữ liệu bao gồm việc sửa lỗi, loại bỏ dữ liệu trùng lặp và xử lý các giá trị bị thiếu trong tập dữ liệu để đảm bảo chất lượng tổng thể. Việc làm sạch có thể diễn ra trước khi chú thích (ví dụ: loại bỏ hình ảnh bị mờ) hoặc sau khi chú thích (ví dụ: sửa nhãn không chính xác), nhưng nó khác với việc thêm nhãn mới. Chất lượng dữ liệu cao là điều cần thiết cho việc chú thích hiệu quả.
Quá trình chú thích có thể được quản lý bằng nhiều công cụ khác nhau, từ các tùy chọn nguồn mở như CVAT đến các nền tảng thương mại như Scale AI và Labelbox . Các nền tảng như Ultralytics HUB cung cấp các giải pháp tích hợp để quản lý tập dữ liệu, đào tạo mô hình và hợp lý hóa toàn bộ quy trình làm việc, từ thu thập dữ liệu và chú thích đến triển khai.