Thuật ngữ

Nhãn dữ liệu

Khám phá vai trò quan trọng của việc dán nhãn dữ liệu trong học máy, quy trình, thách thức và ứng dụng thực tế của nó trong phát triển AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Ghi nhãn dữ liệu là quá trình quan trọng để thêm các thẻ, chú thích hoặc nhãn có ý nghĩa vào dữ liệu thô như hình ảnh, tệp văn bản, video và bản ghi âm. Các nhãn này cung cấp ngữ cảnh thiết yếu, chuyển đổi dữ liệu thô thành thông tin có cấu trúc mà các mô hình Học máy (ML) có thể hiểu và học hỏi. Đặc biệt trong Học có giám sát , dữ liệu được gắn nhãn đóng vai trò là "sự thật cơ bản"—các câu trả lời đúng đã được xác minh mà các thuật toán sử dụng để xác định các mẫu và đưa ra dự đoán chính xác về dữ liệu mới, chưa được biết đến. Chất lượng và độ chính xác của các nhãn này là tối quan trọng, ảnh hưởng trực tiếp đến hiệu suất và độ tin cậy của các hệ thống Trí tuệ nhân tạo (AI) , đặc biệt là trong lĩnh vực Thị giác máy tính (CV) .

Tầm quan trọng của việc dán nhãn dữ liệu

Dữ liệu được gắn nhãn chất lượng cao tạo thành nền tảng cho các dự án ML thành công. Các mô hình tiên tiến, bao gồm cả họ YOLO Ultralytics , phụ thuộc rất nhiều vào các tập dữ liệu được gắn nhãn chính xác để học hiệu quả trong quá trình đào tạo . Các nhãn không nhất quán, không chính xác hoặc thiên vị có thể làm giảm nghiêm trọng hiệu suất của mô hình, dẫn đến các dự đoán không đáng tin cậy và khả năng khái quát kém trong các ứng dụng thực tế. Chuẩn bị dữ liệu, bao gồm thu thập, làm sạch và gắn nhãn, thường tiêu tốn một phần đáng kể thời gian và tài nguyên trong quá trình phát triển AI, như được nêu bật trong các báo cáo của ngành như báo cáo Anaconda State of Data Science , nhấn mạnh tầm quan trọng của nó. Nếu không có nhãn tốt, ngay cả các thuật toán tinh vi nhất cũng sẽ không mang lại kết quả có ý nghĩa.

Quy trình dán nhãn dữ liệu

Việc tạo ra các tập dữ liệu có nhãn chất lượng cao thường bao gồm một số giai đoạn chính:

  1. Thu thập dữ liệu: Thu thập dữ liệu thô (hình ảnh, video, v.v.) có liên quan đến nhiệm vụ cụ thể.
  2. Lựa chọn công cụ: Lựa chọn phần mềm hoặc nền tảng chú thích dữ liệu phù hợp (ví dụ: LabelImg hoặc các nền tảng tích hợp như Ultralytics HUB ).
  3. Định nghĩa hướng dẫn: Thiết lập hướng dẫn rõ ràng cho người chú thích để đảm bảo tính nhất quán và chính xác.
  4. Chú thích: Áp dụng nhãn cho dữ liệu theo các hướng dẫn đã xác định. Điều này có thể liên quan đến người chú thích hoặc các phương pháp bán tự động.
  5. Đảm bảo chất lượng: Xem xét dữ liệu được gắn nhãn để xác minh tính chính xác và tuân thủ các hướng dẫn, thường bao gồm nhiều lần kiểm tra hoặc cơ chế đồng thuận.

Để biết hướng dẫn thực tế về các bước này, hãy tham khảo Hướng dẫn thu thập và chú thích dữ liệu Ultralytics .

Các loại nhãn dữ liệu trong thị giác máy tính

Các tác vụ thị giác máy tính khác nhau đòi hỏi các kỹ thuật dán nhãn khác nhau:

  • Phân loại hình ảnh : Gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: 'mèo', 'chó', 'ô tô'). Các tập dữ liệu như ImageNet là cơ bản cho nhiệm vụ này.
  • Phát hiện đối tượng : Vẽ các hộp giới hạn xung quanh các đối tượng quan tâm trong một hình ảnh và gán nhãn lớp cho mỗi hộp (ví dụ: xác định vị trí của tất cả ô tô và người đi bộ trong một cảnh đường phố). Bộ dữ liệu COCO là một chuẩn mực phổ biến.
  • Phân đoạn hình ảnh : Gán nhãn lớp cho mọi pixel trong hình ảnh. Điều này có thể được chia thành Phân đoạn ngữ nghĩa (nhóm pixel theo lớp) và Phân đoạn thể hiện (phân biệt các thể hiện đối tượng riêng lẻ trong cùng một lớp). Xem trang tác vụ phân đoạn để biết ví dụ.
  • Ước tính tư thế : Xác định vị trí của các điểm chính cụ thể trên một vật thể, thường được sử dụng để phân tích tư thế của con người hoặc động vật (ví dụ: xác định vị trí các khớp như khuỷu tay, đầu gối, cổ tay).

Ứng dụng và ví dụ thực tế

Việc gắn nhãn dữ liệu là không thể thiếu trong nhiều ứng dụng AI:

  1. Xe tự hành : Xe tự lái cần dữ liệu được gắn nhãn tỉ mỉ (hình ảnh, đám mây điểm LiDAR) để xác định người đi bộ, phương tiện, đèn giao thông, vạch kẻ đường và các yếu tố đường khác. Các tập dữ liệu như Waymo Open Dataset cung cấp dữ liệu cảm biến được gắn nhãn rất quan trọng để đào tạo các mô hình nhận thức.
  2. Phân tích hình ảnh y tế : Trong AI trong chăm sóc sức khỏe , các bác sĩ X quang và chuyên gia dán nhãn các bản quét y tế (X-quang, CT, MRI) để làm nổi bật khối u, gãy xương hoặc các bất thường khác. Các kho lưu trữ công cộng như The Cancer Imaging Archive (TCIA) cung cấp hình ảnh y tế được dán nhãn để nghiên cứu. Điều này cho phép các mô hình như YOLO11 hỗ trợ phát hiện bệnh .
  3. Bán lẻ: Dán nhãn sản phẩm trên kệ để quản lý hàng tồn kho tự động hoặc phân tích hành vi khách hàng.
  4. Nông nghiệp: Chú thích hình ảnh cây trồng để phát hiện bệnh tật, sâu bệnh hoặc ước tính năng suất, hỗ trợ các kỹ thuật canh tác chính xác .

Các khái niệm liên quan

Việc dán nhãn dữ liệu có liên quan chặt chẽ với các khái niệm ML cơ bản khác:

  • Dữ liệu đào tạo : Gắn nhãn dữ liệu là quá trình được sử dụng để tạo các tập dữ liệu đào tạo có gắn nhãn, rất cần thiết cho việc học có giám sát.
  • Tăng cường dữ liệu : Kỹ thuật này làm tăng kích thước và tính đa dạng của tập dữ liệu một cách giả tạo bằng cách áp dụng các phép biến đổi (như xoay, lật) vào dữ liệu đã được gắn nhãn . Nó bổ sung cho việc gắn nhãn nhưng không thay thế nhu cầu chú thích ban đầu. Tổng quan về tăng cường dữ liệu cung cấp thêm chi tiết.
  • Dọn dẹp dữ liệu : Bao gồm việc xác định và sửa lỗi, sự không nhất quán hoặc không chính xác trong một tập dữ liệu, có thể xảy ra trước, trong hoặc sau khi gắn nhãn. Dọn dẹp dữ liệu trên Wikipedia cung cấp thêm ngữ cảnh. Nó đảm bảo chất lượng chung của dữ liệu được sử dụng để đào tạo.
  • Học có giám sát : Mô hình ML này dựa rõ ràng vào dữ liệu được gắn nhãn (cặp đầu vào-đầu ra) để đào tạo các mô hình. Đọc thêm trên trang Học có giám sát của Wikipedia .

Những thách thức trong việc dán nhãn dữ liệu

Mặc dù cần thiết, việc dán nhãn dữ liệu vẫn phải đối mặt với một số rào cản:

  • Chi phí và thời gian: Việc dán nhãn các tập dữ liệu lớn có thể tốn kém và mất nhiều thời gian, thường đòi hỏi nhiều nỗ lực của con người.
  • Khả năng mở rộng: Việc quản lý và mở rộng hoạt động gắn nhãn cho các tập dữ liệu lớn đặt ra những thách thức về mặt hậu cần.
  • Tính chủ quan: Sự mơ hồ trong dữ liệu hoặc hướng dẫn có thể dẫn đến nhãn không nhất quán giữa những người chú thích khác nhau.
  • Kiểm soát chất lượng: Đảm bảo chất lượng và độ chính xác của dữ liệu cao đòi hỏi quy trình đánh giá chặt chẽ.

Các kỹ thuật như Học tập chủ động có thể giúp giảm thiểu những thách thức này bằng cách lựa chọn thông minh các điểm dữ liệu nhiều thông tin nhất để dán nhãn, có khả năng giảm thiểu tổng thể công sức cần thiết, như được nêu chi tiết trên trang Học tập chủ động của Wikipedia . Các nền tảng như Ultralytics HUB và tích hợp với các dịch vụ như Roboflow nhằm mục đích hợp lý hóa quy trình quản lý dữ liệu và dán nhãn.

Đọc tất cả