Bounding Box
Tìm hiểu cách hộp bao (bounding box) xác định vị trí đối tượng trong thị giác máy tính. Khám phá các định dạng tọa độ, các ứng dụng thực tế và cách sử dụng Ultralytics YOLO26.
Bounding box là một vùng hình chữ nhật được xác định bởi một tập hợp các tọa độ bao quanh một đối tượng cụ thể trong một khung hình hoặc video. Trong lĩnh vực computer vision (CV), các hộp này đóng vai trò là chú thích nền tảng để dạy các hệ thống artificial intelligence (AI) cách xác định vị trí và nhận diện các đối tượng riêng biệt. Thay vì chỉ phân loại toàn bộ hình ảnh là "có chứa ô tô", bounding box cho phép model xác định chính xác vị trí và phạm vi không gian của ô tô, tách biệt nó khỏi nền và các thực thể khác. Khả năng định vị này rất cần thiết cho các tác vụ object detection, nơi mục tiêu là xác định đồng thời nhiều đối tượng với độ chính xác cao.
Link to this sectionCác Khái niệm và Tọa độ Cốt lõi#
Để xử lý dữ liệu hình ảnh hiệu quả, các model machine learning (ML) dựa vào các hệ tọa độ cụ thể để biểu diễn bounding box một cách toán học. Định dạng được chọn thường quyết định cách chuẩn bị dữ liệu cho model training và cách model xuất ra kết quả dự đoán.
- XYXY Coordinates: Định dạng này định nghĩa một hộp sử dụng giá trị pixel tuyệt đối của góc trên cùng bên trái và góc dưới cùng bên phải. Nó rất trực quan cho các công cụ trực quan hóa như OpenCV hoặc Matplotlib khi vẽ hình chữ nhật trực tiếp lên hình ảnh.
- XYWH Format: Phổ biến trong các tập dữ liệu như COCO, phương pháp này chỉ định điểm trung tâm của đối tượng theo sau là chiều rộng và chiều cao của hộp. Cách biểu diễn này rất quan trọng để tính toán loss functions trong quá trình học.
- Normalized Coordinates: Để đảm bảo scalability trên các hình ảnh có độ phân giải khác nhau, các tọa độ thường được chuẩn hóa về phạm vi từ 0 đến 1. Điều này giúp các model tổng quát hóa tốt hơn khi phân tích các đầu vào có kích thước khác nhau.
Link to this sectionCác ứng dụng trong thực tế#
Bounding box là nền tảng cho vô số giải pháp AI trong các ngành công nghiệp đa dạng. Bằng cách cho phép định vị chính xác, chúng cho phép các hệ thống tương tác thông minh với thế giới vật lý.
- Autonomous Vehicles: Xe tự lái sử dụng bounding box để phát hiện và theo dõi người đi bộ, các phương tiện khác, biển báo giao thông và chướng ngại vật trong thời gian thực. Nhận thức không gian này rất quan trọng đối với các hệ thống điều hướng và an toàn để đưa ra quyết định trong tích tắc.
- Retail Analytics: Trong các cửa hàng thông minh, bounding box giúp giám sát hàng tồn kho trên kệ và theo dõi tương tác của khách hàng với sản phẩm. Dữ liệu này có thể tự động hóa việc bổ sung hàng hóa và cung cấp thông tin chi tiết về hành vi mua sắm mà không cần kiểm đếm thủ công.
Link to this sectionBounding Boxes trong Thực tế#
Khi sử dụng các kiến trúc hiện đại như YOLO26, model sẽ dự đoán các bounding box cùng với nhãn lớp và confidence score. Ví dụ sau đây minh họa cách chạy inference trên hình ảnh và truy cập tọa độ bounding box bằng cách sử dụng gói ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionCác Thuật ngữ Liên quan và Phân biệt#
Mặc dù bounding box là tiêu chuẩn cho việc phát hiện thông thường, chúng khác biệt so với các loại chú thích khác được sử dụng trong các tác vụ chi tiết hơn.
- Instance Segmentation: Không giống như bounding box hình chữ nhật, segmentation tạo ra một mặt nạ (mask) chính xác từng pixel, theo dấu đường viền chính xác của đối tượng. Điều này hữu ích khi hình dạng chính xác quan trọng hơn vị trí tổng quát.
- Oriented Bounding Box (OBB): Các bounding box tiêu chuẩn là các hình chữ nhật căn chỉnh theo trục (nằm thẳng). OBB có thể xoay để khớp với các đối tượng bị nghiêng, chẳng hạn như tàu thuyền trong ảnh vệ tinh hoặc các kiện hàng trên băng chuyền, mang lại độ khớp chặt chẽ hơn và giảm nhiễu nền.
- Keypoints: Thay vì bao quanh một đối tượng, keypoints xác định các điểm mốc cụ thể, chẳng hạn như các khớp trên cơ thể người cho pose estimation.
Link to this sectionCác Công cụ Chú thích và Quản lý#
Việc tạo chú thích bounding box chất lượng cao là một bước quan trọng trong quy trình ML. Ultralytics Platform đơn giản hóa quy trình này bằng cách cung cấp các công cụ cho data annotation và quản lý tập dữ liệu. Chú thích phù hợp đảm bảo rằng các model học cách phân biệt đối tượng một cách chính xác, giảm thiểu các lỗi như overfitting hoặc nhầm lẫn nền. Các kỹ thuật tiên tiến như Non-Maximum Suppression (NMS) được sử dụng trong quá trình inference để tinh chỉnh các dự đoán này bằng cách loại bỏ các hộp chồng chéo, đảm bảo rằng chỉ kết quả phát hiện chính xác nhất được giữ lại cho mỗi đối tượng.






