Tìm hiểu Intersection over Union (IoU) là gì, cách tính IoU và vai trò quan trọng của nó trong object detection và đánh giá mô hình AI.
Intersection over Union (IoU) là một chỉ số đánh giá cơ bản được sử dụng trong thị giác máy tính (CV), đặc biệt đối với các tác vụ phát hiện đối tượng. Nó đo lường sự chồng chéo giữa hai ranh giới: hộp giới hạn được dự đoán do mô hình tạo ra và hộp giới hạn ground-truth, là đường viền chính xác được gắn nhãn thủ công. Điểm số thu được, một giá trị từ 0 đến 1, định lượng mức độ chính xác của mô hình trong việc xác định vị trí của một đối tượng trong một hình ảnh. Điểm 1 thể hiện sự phù hợp hoàn hảo, trong khi điểm 0 cho biết hoàn toàn không có sự chồng chéo nào. Chỉ số này rất quan trọng để đánh giá độ chính xác định vị của các mô hình như Ultralytics YOLO11.
Về cốt lõi, IoU tính tỷ lệ giao (diện tích chồng lên nhau) trên hợp (tổng diện tích được bao phủ bởi cả hai hộp) của bounding box được dự đoán và ground-truth. Hãy tưởng tượng hai hình vuông chồng lên nhau. "Giao" là diện tích chung nơi chúng chồng lên nhau. "Hợp" là tổng diện tích mà cả hai hình vuông bao phủ kết hợp, chỉ tính phần chồng lên nhau một lần. Bằng cách chia giao cho hợp, IoU cung cấp một thước đo tiêu chuẩn về mức độ căn chỉnh của hộp được dự đoán với đối tượng thực tế. Khái niệm đơn giản nhưng mạnh mẽ này là nền tảng của deep learning (DL) hiện đại để phát hiện đối tượng.
Một phần quan trọng của việc sử dụng IoU là thiết lập một "ngưỡng IoU". Ngưỡng này là một giá trị được xác định trước (ví dụ: 0,5) để xác định xem một dự đoán có chính xác hay không. Nếu điểm IoU cho một hộp dự đoán cao hơn ngưỡng này, nó được phân loại là "true positive" (dương tính thật). Nếu điểm thấp hơn, nó là "false positive" (dương tính giả). Ngưỡng này ảnh hưởng trực tiếp đến các số liệu hiệu suất khác như Độ chính xác (Precision) và Độ phủ (Recall), và là một thành phần quan trọng trong việc tính toán độ chính xác trung bình (mAP), một số liệu tiêu chuẩn để đánh giá các mô hình phát hiện đối tượng trên các tập dữ liệu benchmark như COCO.
IoU rất quan trọng để xác thực hiệu suất của vô số hệ thống AI. Dưới đây là một vài ví dụ:
IoU không chỉ là một số liệu đánh giá; nó còn là một phần không thể thiếu trong quá trình huấn luyện. Nhiều kiến trúc phát hiện đối tượng hiện đại, bao gồm các biến thể của Ultralytics YOLOv8 và YOLO11, sử dụng trực tiếp IoU hoặc các biến thể của nó trong hàm mất mát (loss functions). Các loss function dựa trên IoU nâng cao này, chẳng hạn như Generalized IoU (GIoU), Distance-IoU (DIoU) hoặc Complete-IoU (CIoU), giúp mô hình học cách dự đoán các bounding box không chỉ chồng lấp tốt mà còn xem xét các yếu tố như khoảng cách giữa các tâm và tính nhất quán của tỷ lệ khung hình. Điều này dẫn đến sự hội tụ nhanh hơn và hiệu suất định vị tốt hơn so với các loss function hồi quy truyền thống. Bạn có thể tìm thấy so sánh chi tiết giữa các mô hình YOLO khác nhau trong tài liệu của chúng tôi.
Việc theo dõi IoU trong quá trình huấn luyện mô hình và điều chỉnh siêu tham số giúp các nhà phát triển tinh chỉnh mô hình để định vị tốt hơn. Các công cụ như Ultralytics HUB cho phép theo dõi IoU và các số liệu khác, hợp lý hóa chu trình cải thiện mô hình. Mặc dù được sử dụng rộng rãi, IoU tiêu chuẩn đôi khi có thể không nhạy, đặc biệt đối với các hộp không chồng chéo. Hạn chế này đã thúc đẩy sự phát triển của các biến thể IoU đã đề cập ở trên. Tuy nhiên, IoU vẫn là nền tảng của đánh giá thị giác máy tính.
Mặc dù IoU rất quan trọng, nhưng điều quan trọng là phải hiểu mối quan hệ của nó với các số liệu khác: