Hộp giới hạn (Bounding Box)
Tìm hiểu cách bounding box (khung giới hạn) cho phép object detection (phát hiện đối tượng), AI và các hệ thống machine learning (máy học). Khám phá vai trò của chúng trong các ứng dụng computer vision (thị giác máy tính)!
Hộp giới hạn là một vùng hình chữ nhật được xác định bởi tọa độ, cô lập một đặc điểm hoặc đối tượng cụ thể trong khung hình ảnh hoặc video. Trong lĩnh vực thị giác máy tính (CV) , chú thích này đóng vai trò là đơn vị cơ bản để định vị các thực thể riêng biệt, cho phép các hệ thống trí tuệ nhân tạo (AI) "nhìn thấy" vị trí của một vật thể thay vì chỉ biết nó tồn tại trong khung cảnh. Chủ yếu được sử dụng trong các tác vụ phát hiện đối tượng , hộp giới hạn phác thảo phạm vi không gian của một mục tiêu—chẳng hạn như ô tô, người hoặc sản phẩm—và thường được liên kết với nhãn lớp và điểm tin cậy cho biết mức độ chắc chắn của mô hình.
Hệ thống tọa độ và định dạng
Để cho phép các mô hình học máy (ML) xử lý dữ liệu trực quan theo phương pháp toán học, các hộp giới hạn được biểu diễn bằng các hệ tọa độ cụ thể. Việc lựa chọn định dạng thường phụ thuộc vào tập dữ liệu được sử dụng để huấn luyện hoặc các yêu cầu cụ thể của kiến trúc phát hiện.
-
Tọa độ XYXY : Định dạng này sử dụng giá trị pixel tuyệt đối của góc trên bên trái ($x1, y1$) và góc dưới bên phải ($x2, y2$). Nó rất trực quan và thường được sử dụng trong các thư viện trực quan hóa như Matplotlib để vẽ hình chữ nhật trên ảnh.
-
Định dạng XYWH : Được phổ biến bởi tập dữ liệu COCO , định dạng này chỉ định điểm trung tâm của đối tượng ($x_center, y_center$) theo sau là chiều rộng và chiều cao của hình hộp. Định dạng này rất quan trọng để tính toán các hàm mất mát trong quá trình huấn luyện mô hình .
-
Tọa độ chuẩn hóa : Để đảm bảo khả năng mở rộng trên các độ phân giải hình ảnh khác nhau, tọa độ thường được chuẩn hóa về phạm vi từ 0 đến 1 so với kích thước hình ảnh. Điều này cho phép các mô hình tổng quát hóa tốt hơn khi xử lý đầu vào có kích thước khác nhau.
Các loại hộp giới hạn
Mặc dù hộp hình chữ nhật tiêu chuẩn phù hợp với nhiều trường hợp, nhưng môi trường thực tế phức tạp đôi khi đòi hỏi các hình dạng chuyên biệt hơn để thu thập dữ liệu huấn luyện một cách chính xác.
-
Hộp giới hạn song song với trục (AABB): Đây là các hộp tiêu chuẩn có các cạnh song song với các trục của hình ảnh (dọc và ngang). Chúng có hiệu quả tính toán cao và là định dạng đầu ra mặc định cho các mô hình tốc độ cao như YOLO26 và YOLO11 .
-
Hộp giới hạn định hướng (OBB) : Khi các đối tượng được xoay, mỏng hoặc xếp sát nhau—chẳng hạn như tàu thuyền trong bến cảng hoặc văn bản trong tài liệu—một hộp giới hạn tiêu chuẩn có thể bao gồm quá nhiều nhiễu nền. OBB bao gồm một tham số góc bổ sung, cho phép hình chữ nhật xoay và ôm sát đối tượng. Điều này rất quan trọng đối với các tác vụ đòi hỏi độ chính xác cao như phân tích ảnh vệ tinh .
Khung giới hạn so với các khái niệm liên quan
Điều quan trọng là phải phân biệt hộp giới hạn với các kỹ thuật định vị khác và các bước huấn luyện trung gian.
-
So sánh với phân đoạn ảnh : Hộp giới hạn cung cấp định vị thô, cho bạn biết vị trí gần đúng của đối tượng. Ngược lại, phân đoạn tạo ra một mặt nạ hoàn hảo đến từng pixel, phác thảo hình dạng chính xác. Mặc dù phân đoạn chính xác hơn, nhưng hộp giới hạn được chú thích nhanh hơn và tiết kiệm chi phí tính toán hơn cho suy luận thời gian thực .
-
So với Anchor Boxes : Anchor box là một "dự đoán" hoặc mẫu được xác định trước, được sử dụng trong quá trình huấn luyện một số bộ dò để ổn định quá trình học. Hộp giới hạn (bounding box) là kết quả cuối cùng, được tinh chỉnh mà mô hình dự đoán sau khi điều chỉnh các anchor này.
Các Ứng dụng Thực tế
Hộp giới hạn có chức năng như khối xây dựng cho các hệ thống ra quyết định phức tạp trong nhiều ngành công nghiệp khác nhau.
-
Xe tự lái : Công nghệ xe tự lái phụ thuộc rất nhiều vào các khung giới hạn để duy trì nhận thức không gian. Bằng cách vẽ các khung xung quanh người đi bộ, đèn giao thông và các xe khác, hệ thống ước tính khoảng cách và quỹ đạo để ngăn ngừa va chạm. Bạn có thể tìm hiểu thêm về điều này trong bài tổng quan của chúng tôi về Trí tuệ nhân tạo trong ngành ô tô .
-
Quản lý bán lẻ và hàng tồn kho: Các cửa hàng thông minh sử dụng hộp giới hạn để track Sản phẩm trên kệ. Hệ thống có thể xác định các mặt hàng hết hàng hoặc tự động hóa quy trình thanh toán bằng cách định vị sản phẩm trong giỏ hàng. Điều này giúp cải thiện hiệu quả và là một thành phần quan trọng của AI hiện đại trong các giải pháp bán lẻ .
Ví dụ thực tế với Python
Đoạn trích sau đây trình bày cách sử dụng ultralytics thư viện để tạo các hộp giới hạn. Chúng tôi tải một YOLO26 mô hình hóa và in dữ liệu tọa độ cho các đối tượng được phát hiện.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
# The '.cpu().numpy()' conversion ensures compatibility with standard Python types
box = results[0].boxes.xyxy[0].cpu().numpy()
print(f"Detected Box Coordinates: {box}")
Độ chính xác của các dự đoán này thường được đánh giá bằng một chỉ số gọi là Giao điểm trên Hợp nhất ( IoU ) , đo lường sự trùng lặp giữa hộp được dự đoán và chú thích thực tế do người gắn nhãn cung cấp. Cao IoU
Điểm số cho thấy mô hình đã định vị chính xác đối tượng, một yếu tố quan trọng trong việc đánh giá mô hình .