Hộp giới hạn (Bounding Box)
Tìm hiểu cách bounding box (khung giới hạn) cho phép object detection (phát hiện đối tượng), AI và các hệ thống machine learning (máy học). Khám phá vai trò của chúng trong các ứng dụng computer vision (thị giác máy tính)!
Bounding box là một chú thích hình chữ nhật được sử dụng trong thị giác máy tính để chỉ ra vị trí của một đối tượng trong một hình ảnh hoặc khung hình video. Nó đóng vai trò là một thành phần cơ bản của phát hiện đối tượng, cung cấp một cách đơn giản nhưng hiệu quả để xác định vị trí và tỷ lệ của một đối tượng. Trong học máy, các mô hình được đào tạo trên các bộ dữ liệu lớn gồm các hình ảnh có bounding box được gắn nhãn để học cách tự xác định và định vị các đối tượng. Đầu ra của các mô hình này bao gồm tọa độ của hộp, nhãn lớp (ví dụ: "ô tô", "người") và điểm tin cậy cho biết mức độ chắc chắn của mô hình trong dự đoán của nó.
Cách Bounding Boxes hoạt động
Bounding box thường được xác định bởi một tập hợp các tọa độ chỉ định vị trí và kích thước của nó. Các biểu diễn phổ biến nhất là:
- Tọa độ trên cùng bên trái với chiều rộng và chiều cao (x, y, w, h): Định dạng này chỉ định tọa độ x và y của góc trên cùng bên trái, cùng với chiều rộng và chiều cao của hộp.
- Điểm góc (x_min, y_min, x_max, y_max): Định dạng này xác định tọa độ của các góc trên cùng bên trái và dưới cùng bên phải của hình chữ nhật.
Các tọa độ này được sử dụng để huấn luyện các mô hình học sâu, mô hình này học cách dự đoán các giá trị này cho các hình ảnh mới, chưa từng thấy. Độ chính xác của một bounding box được dự đoán thường được đánh giá bằng một số liệu gọi là Intersection over Union (IoU), đo lường sự chồng chéo giữa bounding box được dự đoán và bounding box ground-truth. Các mô hình phát hiện đối tượng hiện đại, chẳng hạn như Ultralytics YOLO11, được tối ưu hóa cao để tạo ra các bounding box chính xác trong thời gian thực.
Các loại hộp giới hạn
Có hai loại bounding box chính:
- Hộp giới hạn thẳng hàng theo trục (Axis-Aligned Bounding Box): Đây là loại phổ biến nhất, trong đó các cạnh của hình chữ nhật được căn chỉnh theo trục ngang và trục dọc của hình ảnh. Chúng đơn giản để biểu diễn và xử lý nhưng có thể không hiệu quả đối với các đối tượng bị xoay hoặc có hình dạng không đều, vì hộp có thể bao gồm một vùng nền đáng kể.
- Oriented Bounding Box (OBB) (Hộp giới hạn xoay): Loại hộp này bao gồm một tham số bổ sung cho phép xoay, giúp nó khớp chặt hơn với các đối tượng bị nghiêng. OBB đặc biệt hữu ích trong các ứng dụng chuyên biệt như phân tích ảnh vệ tinh hoặc ảnh chụp trên không từ máy bay không người lái, nơi các đối tượng thường được xem từ nhiều góc độ khác nhau. Các mô hình như YOLO11 hỗ trợ phát hiện đối tượng có hướng để xử lý các tình huống này hiệu quả hơn.
Mối quan hệ với các khái niệm khác
Bounding box (khung giới hạn) có liên quan chặt chẽ đến các tác vụ thị giác máy tính khác nhưng phục vụ một mục đích riêng biệt.
- Phân biệt Phát hiện đối tượng và Phân đoạn ảnh: Trong khi phát hiện đối tượng sử dụng hộp giới hạn để định vị đối tượng, thì phân đoạn ảnh cung cấp sự hiểu biết chi tiết hơn về hình dạng của đối tượng. Ví dụ: Phân đoạn thể hiện tiến thêm một bước bằng cách phác thảo ranh giới mức pixel chính xác của từng đối tượng riêng biệt, thay vì chỉ vẽ một hình chữ nhật xung quanh nó. Điều này hữu ích cho các ứng dụng yêu cầu thông tin hình dạng chính xác. Bạn có thể tìm thêm thông tin trong hướng dẫn về phân đoạn thể hiện này.
- Bounding Box so với Anchor Box: Trong một số mô hình phát hiện đối tượng, được gọi là các bộ phát hiện dựa trên anchor (anchor-based detectors), các hộp được xác định trước gọi là "anchor box" được sử dụng làm tham chiếu để giúp mô hình dự đoán bounding box cuối cùng. Ngược lại, các bộ phát hiện không cần anchor (anchor-free detectors) dự đoán bounding box trực tiếp mà không cần các cài đặt trước này, thường đơn giản hóa kiến trúc mô hình.
Các ứng dụng trong các tình huống thực tế
Hộp giới hạn là không thể thiếu đối với nhiều ứng dụng AI thực tế:
- Xe tự hành: Xe tự lái dựa nhiều vào phát hiện đối tượng để xác định và định vị người đi bộ, các phương tiện khác và đèn giao thông bằng cách sử dụng hộp giới hạn. Nhận thức không gian này, thường đạt được thông qua các mô hình học sâu, rất quan trọng để điều hướng an toàn. Các công ty như Waymo giới thiệu rộng rãi công nghệ này. Ultralytics cung cấp thông tin chi tiết về AI trong xe tự lái.
- Phân tích bán lẻ: Trong bán lẻ, các hộp giới hạn giúp quản lý hàng tồn kho dựa trên AI bằng cách phát hiện các sản phẩm trên kệ, theo dõi mức tồn kho và phân tích hành vi của khách hàng thông qua các mô hình lưu lượng truy cập (đếm đối tượng).
- An ninh và Giám sát: Các bounding box cho phép hệ thống giám sát tự động phát hiện và theo dõi người hoặc vật thể theo thời gian thực, kích hoạt cảnh báo cho các hoạt động đáng ngờ. Đây là nền tảng để xây dựng các ứng dụng như hệ thống báo động an ninh.
- Phân tích ảnh y tế: Trong chăm sóc sức khỏe, bounding box hỗ trợ các bác sĩ lâm sàng bằng cách làm nổi bật các dị thường tiềm ẩn như khối u trong ảnh chụp, hỗ trợ chẩn đoán nhanh hơn. Bạn có thể xem các ví dụ về điều này trong Nghiên cứu về радиология: Trí tuệ nhân tạo và trên trang phân tích ảnh y tế của chúng tôi.
- Nông nghiệp: Các hộp giới hạn được sử dụng trong nông nghiệp chính xác cho các tác vụ như xác định trái cây để thu hoạch, theo dõi sức khỏe cây trồng hoặc phát hiện sâu bệnh, như được trình bày chi tiết trong blog của chúng tôi về thị giác máy tính trong nông nghiệp.