Hộp giới hạn (Bounding Box)
Tìm hiểu cách bounding box (khung giới hạn) cho phép object detection (phát hiện đối tượng), AI và các hệ thống machine learning (máy học). Khám phá vai trò của chúng trong các ứng dụng computer vision (thị giác máy tính)!
Hộp giới hạn là một vùng hình chữ nhật được xác định bằng tọa độ, tách biệt một đặc điểm hoặc đối tượng cụ thể trong một khung hình ảnh hoặc video. Trong lĩnh vực thị giác máy tính , chú thích này đóng vai trò là đơn vị cơ bản để định vị các thực thể riêng biệt, cho phép các hệ thống trí tuệ nhân tạo (AI) "nhìn thấy" vị trí của một vật thể thay vì chỉ biết nó tồn tại trong khung cảnh. Được sử dụng chủ yếu trong các tác vụ phát hiện vật thể , hộp giới hạn phác thảo phạm vi không gian của một mục tiêu—chẳng hạn như ô tô, người hoặc sản phẩm—và thường được liên kết với nhãn lớp và điểm tin cậy cho biết độ chắc chắn của mô hình.
Hệ thống tọa độ và định dạng
Để cho phép các mô hình học máy (ML) xử lý dữ liệu trực quan theo phương pháp toán học, các hộp giới hạn được biểu diễn bằng các hệ tọa độ cụ thể. Việc lựa chọn định dạng thường phụ thuộc vào tập dữ liệu được sử dụng để huấn luyện hoặc các yêu cầu cụ thể của kiến trúc phát hiện.
-
XYXY (Tọa độ góc): Định dạng này sử dụng giá trị pixel tuyệt đối của góc trên bên trái ($x1, y1$) và góc dưới bên phải ($x2, y2$). Định dạng này rất trực quan và thường được sử dụng trong các thư viện trực quan hóa như Matplotlib để vẽ hình chữ nhật trên ảnh.
-
XYWH (Center-Size): Được phổ biến bởi tập dữ liệu COCO , biểu diễn này chỉ định điểm trung tâm của đối tượng ($x_center, y_center$), theo sau là chiều rộng và chiều cao của hộp. Định dạng này rất quan trọng để tính toán các hàm mất mát trong quá trình huấn luyện mô hình .
-
Tọa độ chuẩn hóa: Để đảm bảo khả năng mở rộng trên các độ phân giải hình ảnh khác nhau, tọa độ thường được chuẩn hóa theo phạm vi từ 0 đến 1 so với kích thước hình ảnh. Điều này cho phép các mô hình tổng quát hóa tốt hơn khi xử lý các đầu vào có kích thước khác nhau.
Các loại hộp giới hạn
Trong khi hộp chữ nhật tiêu chuẩn phù hợp với nhiều tình huống, môi trường thực tế phức tạp đôi khi lại yêu cầu hình dạng chuyên biệt hơn.
-
Hộp giới hạn căn chỉnh trục (AABB): Đây là các hộp tiêu chuẩn có các cạnh song song với trục ảnh (dọc và ngang). Chúng hiệu quả về mặt tính toán và là đầu ra mặc định cho các mô hình tốc độ cao như YOLO11 .
-
Hộp giới hạn định hướng (OBB): Khi các đối tượng bị xoay, mỏng hoặc nằm sát nhau—chẳng hạn như tàu thuyền trong bến cảng hoặc văn bản trong tài liệu—một hộp tiêu chuẩn có thể chứa quá nhiều nhiễu nền. Hộp giới hạn định hướng bao gồm một tham số góc bổ sung, cho phép hình chữ nhật xoay và khớp chặt với đối tượng. Điều này rất quan trọng cho các tác vụ chính xác như phân tích ảnh vệ tinh .
Các Ứng dụng Thực tế
Hộp giới hạn có chức năng như khối xây dựng cho các hệ thống ra quyết định phức tạp trong nhiều ngành công nghiệp khác nhau.
-
Xe tự hành: Công nghệ tự lái phụ thuộc rất nhiều vào các hộp giới hạn để duy trì nhận thức không gian. Bằng cách vẽ các hộp xung quanh người đi bộ, đèn giao thông và các phương tiện khác, hệ thống ước tính khoảng cách và quỹ đạo để ngăn ngừa va chạm. Bạn có thể tìm hiểu thêm về điều này trong bài viết tổng quan về AI trong ô tô của chúng tôi.
-
Quản lý bán lẻ và hàng tồn kho: Các cửa hàng thông minh sử dụng hộp giới hạn để track Sản phẩm trên kệ. Hệ thống có thể xác định các mặt hàng hết hàng hoặc tự động hóa quy trình thanh toán bằng cách định vị sản phẩm trong giỏ hàng. Điều này giúp cải thiện hiệu quả và là một thành phần quan trọng của AI hiện đại trong các giải pháp bán lẻ .
Hộp giới hạn so với Phân đoạn
Điều quan trọng là phải phân biệt hộp giới hạn với phân đoạn hình ảnh vì chúng giải quyết các mức độ chi tiết khác nhau.
-
Hộp giới hạn: Cung cấp khả năng định vị thô. Nó cho bạn biết sơ bộ vị trí của đối tượng bằng cách bao quanh nó trong một hộp. Việc chú thích nhanh hơn và giảm chi phí tính toán cho suy luận thời gian thực .
-
Phân đoạn thể hiện: Tạo mặt nạ pixel hoàn hảo, phác thảo hình dạng chính xác của vật thể. Mặc dù chính xác hơn, phân đoạn cũng đòi hỏi nhiều tính toán hơn. Đối với các ứng dụng như phân tích hình ảnh y tế , nơi ranh giới khối u chính xác là rất quan trọng, phân đoạn thường được ưu tiên hơn các hộp giới hạn đơn giản.
Ví dụ thực tế với Python
Đoạn trích sau đây trình bày cách sử dụng ultralytics thư viện để tạo các hộp giới hạn. Chúng tôi tải một YOLO11 mô hình hóa và in dữ liệu tọa độ cho các đối tượng được phát hiện.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
Độ chính xác của những dự đoán này thường được đánh giá bằng cách sử dụng một phép đo gọi là Giao điểm trên Hợp nhất ( IoU ) , phép đo sự chồng lấn giữa hộp dự đoán và chú thích thực tế do người dán nhãn cung cấp. Cao IoU
điểm số cho thấy mô hình đã định vị chính xác đối tượng.