Ghi nhãn dữ liệu cho thị giác máy tính

Trí tuệ nhân tạo (AI) tập trung vào việc cung cấp cho máy móc các khả năng giống như con người và một trong những cách phổ biến nhất để thực hiện điều này là thông qua học có giám sát. Nói cách khác, việc dạy các mô hình AI bằng cách hiển thị cho chúng các ví dụ được gắn nhãn có thể giúp chúng học hỏi từ các mẫu và cải thiện các tác vụ. Nó rất giống với cách con người học hỏi từ kinh nghiệm. Vậy, những ví dụ được gắn nhãn này được tạo ra như thế nào?

Chú thích dữ liệu bao gồm việc gán nhãn hoặc gắn thẻ dữ liệu để giúp các thuật toán máy học hiểu được nó. Trong thị giác máy tính, điều này có nghĩa là đánh dấu hình ảnh hoặc video để nhận dạng và phân loại chính xác các đối tượng, hành động hoặc cảnh. Gán nhãn dữ liệu là rất quan trọng vì sự thành công của mô hình AI phụ thuộc rất nhiều vào chất lượng của dữ liệu được gán nhãn mà nó được đào tạo.

Các nghiên cứu cho thấy rằng hơn 80% thời gian của dự án AI được dành để quản lý dữ liệu, từ thu thập và tổng hợp đến làm sạch và gán nhãn nó. Điều này cho thấy mức độ quan trọng của việc chú thích dữ liệu trong quá trình phát triển mô hình AI. Việc sử dụng dữ liệu được chú thích chất lượng cao giúp các mô hình AI có thể thực hiện các tác vụ như nhận dạng khuôn mặt và phát hiện đối tượng với độ chính xác và độ tin cậy cao hơn trong các tình huống thực tế.

Tại sao cần chú thích dữ liệu

Chú thích dữ liệu tạo thành cơ sở cho hiệu suất của một mô hình thị giác máy tính. Dữ liệu được gán nhãn là sự thật cơ bản mà mô hình sử dụng để học hỏi và đưa ra dự đoán. Dữ liệu ground truth là chìa khóa vì nó đại diện cho thế giới thực mà mô hình cố gắng hiểu. Nếu không có đường cơ sở đáng tin cậy này, mô hình AI sẽ giống như một con tàu điều hướng mà không có la bàn.

__wf_reserved_inherit — Hình 1. Ground Truth so với Dự đoán.

‍

Việc dán nhãn chính xác giúp các mô hình này hiểu được những gì chúng đang thấy và đưa ra quyết định tốt hơn. Nếu dữ liệu được dán nhãn kém hoặc không nhất quán, mô hình sẽ gặp khó khăn trong việc đưa ra các dự đoán và quyết định chính xác, giống như một học sinh học từ sách giáo khoa không chính xác. Nhờ dữ liệu được chú thích, mô hình có thể học các tác vụ như phân loại ảnh, phân vùng thực thể và ước tính tư thế của các đối tượng trong ảnh và video.

Các nguồn tài nguyên tốt nhất cho bộ dữ liệu

Trước khi tạo một bộ dữ liệu hoàn toàn mới và tỉ mỉ dán nhãn hình ảnh và video, bạn nên xem xét liệu có thể sử dụng các bộ dữ liệu có sẵn cho dự án của mình hay không. Có một số kho lưu trữ mã nguồn mở tuyệt vời, nơi bạn có thể truy cập các bộ dữ liệu chất lượng cao miễn phí. Một số kho lưu trữ phổ biến nhất bao gồm:

ImageNet : Thường được sử dụng để đào tạo các mô hình phân loại hình ảnh.
‍
COCO : Bộ dữ liệu này được thiết kế để phát hiện đối tượng, phân đoạn và chú thích hình ảnh.
‍
PASCAL VOC : Hỗ trợ các tác vụ phát hiện và phân đoạn đối tượng.

‍

Khi chọn một bộ dữ liệu, điều quan trọng là phải xem xét các yếu tố như mức độ phù hợp của nó với dự án của bạn, kích thước của bộ dữ liệu, tính đa dạng và chất lượng của nhãn. Ngoài ra, hãy nhớ xem lại các điều khoản cấp phép của bộ dữ liệu để tránh bất kỳ hậu quả pháp lý nào và kiểm tra xem dữ liệu có được định dạng theo cách phù hợp với quy trình làm việc và công cụ của bạn hay không.

Tạo một bộ dữ liệu tùy chỉnh là một lựa chọn tuyệt vời nếu các bộ dữ liệu hiện có không hoàn toàn phù hợp với nhu cầu của bạn. Bạn có thể thu thập hình ảnh bằng các công cụ như webcam, máy bay không người lái hoặc điện thoại thông minh, tùy thuộc vào yêu cầu của dự án. Lý tưởng nhất là bộ dữ liệu tùy chỉnh của bạn phải đa dạng, cân bằng và thực sự đại diện cho vấn đề bạn đang cố gắng giải quyết. Điều này có nghĩa là chụp ảnh trong các điều kiện ánh sáng khác nhau, từ nhiều góc độ khác nhau và trên nhiều môi trường khác nhau.

Nếu bạn chỉ có thể thu thập một số lượng nhỏ hình ảnh hoặc video, thì tăng cường dữ liệu là một kỹ thuật hữu ích. Nó bao gồm việc mở rộng bộ dữ liệu của bạn bằng cách áp dụng các phép biến đổi như xoay, lật hoặc điều chỉnh màu sắc cho các hình ảnh hiện có. Nó làm tăng kích thước bộ dữ liệu của bạn và làm cho mô hình của bạn mạnh mẽ hơn và có khả năng xử lý các biến thể trong dữ liệu tốt hơn. Bằng cách sử dụng kết hợp các bộ dữ liệu mã nguồn mở, bộ dữ liệu tùy chỉnh và dữ liệu tăng cường, bạn có thể tăng đáng kể hiệu suất của các mô hình thị giác máy tính của mình.

Các loại kỹ thuật chú thích hình ảnh

Trước khi bắt đầu chú thích hình ảnh, điều quan trọng là phải làm quen với các loại chú thích khác nhau. Nó sẽ giúp bạn chọn đúng loại cho dự án của mình. Tiếp theo, chúng ta sẽ xem xét một số loại chú thích chính.

Hộp giới hạn

Hộp giới hạn là loại chú thích phổ biến nhất trong thị giác máy tính. Chúng là các hộp hình chữ nhật được sử dụng để đánh dấu vị trí của một đối tượng trong một hình ảnh. Các hộp này được xác định bởi tọa độ của các góc của chúng và giúp các mô hình AI xác định và định vị các đối tượng. Hộp giới hạn chủ yếu được sử dụng để phát hiện đối tượng.

‍

Mặt nạ phân vùng

Đôi khi, một đối tượng cần được phát hiện chính xác hơn là chỉ bằng một hộp giới hạn được vẽ xung quanh nó. Bạn có thể quan tâm đến ranh giới của các đối tượng trong một hình ảnh. Trong trường hợp đó, mặt nạ phân vùng cho phép bạn phác thảo các đối tượng phức tạp. Mặt nạ phân vùng là một biểu diễn chi tiết hơn ở cấp độ pixel.

Các mặt nạ này có thể được sử dụng cho phân vùng ngữ nghĩa và phân vùng thực thể. Phân vùng ngữ nghĩa liên quan đến việc dán nhãn mọi pixel trong một hình ảnh theo đối tượng hoặc khu vực mà nó đại diện, chẳng hạn như người đi bộ, ô tô, đường hoặc vỉa hè. Tuy nhiên, phân vùng thực thể tiến thêm một bước bằng cách xác định và tách riêng từng đối tượng, chẳng hạn như phân biệt giữa mỗi chiếc ô tô trong một hình ảnh, ngay cả khi chúng đều cùng một loại.

‍

Hình hộp 3D

Hình hộp 3D tương tự như hộp giới hạn, điều khiến chúng trở nên độc đáo là hình hộp 3D thêm thông tin về độ sâu và cung cấp biểu diễn 3D của một đối tượng. Thông tin bổ sung này cho phép các hệ thống hiểu được hình dạng, thể tích và vị trí của các đối tượng trong không gian 3D. Hình hộp 3D thường được sử dụng trong xe tự lái để đo khoảng cách của các đối tượng từ xe.

‍

Điểm chính và điểm đánh dấu

Một loại chú thích thú vị khác là điểm chính, trong đó các điểm cụ thể như mắt, mũi hoặc khớp được đánh dấu trên các đối tượng. Điểm đánh dấu tiến thêm một bước bằng cách kết nối các điểm này để nắm bắt cấu trúc và chuyển động của các hình dạng phức tạp hơn, như khuôn mặt hoặc tư thế cơ thể. Các loại chú thích này được sử dụng cho các ứng dụng như nhận dạng khuôn mặt, ghi lại chuyển động và thực tế tăng cường. Chúng cũng cải thiện độ chính xác của các mô hình AI trong các tác vụ như nhận dạng cử chỉ hoặc phân tích hiệu suất thể thao.

‍

Cách chú thích dữ liệu bằng labelImg

Bây giờ chúng ta đã thảo luận về các loại chú thích khác nhau, hãy cùng tìm hiểu cách bạn có thể chú thích hình ảnh bằng một công cụ phổ biến, LabelImg . LabelImg là một công cụ mã nguồn mở giúp việc chú thích hình ảnh trở nên đơn giản và có thể được sử dụng để tạo tập dữ liệu trong YOLO Định dạng (Bạn chỉ nhìn một lần). Đây là lựa chọn tuyệt vời cho người mới bắt đầu làm việc với các dự án Ultralytics YOLOv8 nhỏ.

Việc thiết lập LabelImg rất đơn giản. Trước tiên, hãy đảm bảo bạn đã cài đặt Python 3 trên máy tính. Sau đó, bạn có thể cài đặt LabelImg bằng một lệnh nhanh.

Sau khi cài đặt xong, bạn có thể khởi động công cụ bằng lệnh:

LabelImg hoạt động trên nhiều nền tảng, bao gồm Windows, macOS và Linux. Nếu bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, kho lưu trữ LabelImg chính thức có thể cung cấp cho bạn hướng dẫn chi tiết hơn.

‍

Sau khi khởi chạy công cụ, hãy làm theo các bước đơn giản sau để bắt đầu gắn nhãn hình ảnh của bạn:

Thiết lập các lớp của bạn: Bắt đầu bằng cách xác định danh sách các lớp (danh mục) bạn muốn chú thích trong một tệp có tên là “predefined_classes.txt.” Tệp này cho phần mềm biết những đối tượng bạn sẽ gắn nhãn trong hình ảnh của mình.
‍
Chuyển sang định dạng YOLO : Theo mặc định, LabelImg sử dụng PASCAL VOC định dạng, nhưng nếu bạn đang làm việc với YOLO , bạn sẽ cần phải chuyển đổi định dạng. Chỉ cần nhấp vào nút “PascalVOC” trên thanh công cụ để chuyển sang YOLO .
‍
Bắt đầu chú thích: Sử dụng tùy chọn "Mở" hoặc "OpenDIR" để tải ảnh. Sau đó, vẽ các khung giới hạn xung quanh các đối tượng bạn muốn chú thích và gán nhãn lớp chính xác. Sau khi dán nhãn cho mỗi ảnh, hãy lưu tác phẩm của bạn. LabelImg sẽ tạo một tệp văn bản có cùng tên với ảnh của bạn, chứa YOLO chú thích.
‍
Lưu và xem lại: Các chú thích được lưu trong tệp .txt trong YOLO định dạng. Phần mềm cũng lưu tệp “classes.txt ” liệt kê tất cả tên lớp của bạn.

Các chiến lược gắn nhãn dữ liệu hiệu quả

Để làm cho quá trình gắn nhãn dữ liệu diễn ra suôn sẻ hơn, có một vài chiến lược quan trọng cần ghi nhớ. Ví dụ: hướng dẫn chú thích rõ ràng là rất quan trọng. Nếu không có chúng, những người chú thích khác nhau có thể hiểu một nhiệm vụ khác nhau.

Giả sử nhiệm vụ là chú thích chim trong hình ảnh bằng các hộp giới hạn. Một người chú thích có thể gắn nhãn toàn bộ con chim, trong khi người khác có thể chỉ gắn nhãn đầu hoặc cánh. Sự không nhất quán này có thể gây nhầm lẫn cho mô hình trong quá trình huấn luyện. Bằng cách cung cấp các định nghĩa rõ ràng, chẳng hạn như "gắn nhãn toàn bộ con chim bao gồm cả cánh và đuôi", cùng với các ví dụ và hướng dẫn cho các trường hợp khó, bạn có thể đảm bảo dữ liệu được gắn thẻ chính xác và nhất quán.

Kiểm tra chất lượng thường xuyên cũng rất quan trọng để duy trì các tiêu chuẩn cao. Bằng cách thiết lập các chuẩn mực và sử dụng các số liệu cụ thể để xem xét công việc, bạn có thể giữ cho dữ liệu chính xác và tinh chỉnh quy trình thông qua phản hồi liên tục.

Tóm tắt về gắn nhãn dữ liệu

Chú thích dữ liệu là một khái niệm đơn giản có thể có tác động đáng kể đến mô hình thị giác máy tính của bạn. Cho dù bạn đang sử dụng các công cụ như LabelImg để chú thích hình ảnh hay huấn luyện mô hình trên bộ dữ liệu nguồn mở, việc hiểu rõ về chú thích dữ liệu là rất quan trọng. Các chiến lược gắn nhãn dữ liệu có thể giúp hợp lý hóa toàn bộ quy trình và làm cho nó hiệu quả hơn. Dành thời gian để tinh chỉnh phương pháp chú thích của bạn có thể dẫn đến kết quả AI tốt hơn, đáng tin cậy hơn.

Tiếp tục khám phá và mở rộng kỹ năng của bạn! Hãy kết nối với cộng đồng của chúng tôi để tiếp tục tìm hiểu về AI! Xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi đang sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành như sản xuất và chăm sóc sức khỏe. 🚀

Khám phá việc gán nhãn dữ liệu cho các dự án thị giác máy tính

Tại sao cần chú thích dữ liệu

Các nguồn tài nguyên tốt nhất cho bộ dữ liệu