Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hộp giới hạn (Bounding Box)

Tìm hiểu cách các hộp giới hạn xác định vị trí đối tượng trong thị giác máy tính. Khám phá các định dạng tọa độ, ứng dụng thực tế và cách sử dụng chúng. Ultralytics YOLO26.

Hộp giới hạn là một vùng hình chữ nhật được xác định bởi một tập hợp các tọa độ, bao quanh một đối tượng cụ thể trong khung hình ảnh hoặc video. Trong lĩnh vực thị giác máy tính (CV) , các hộp này đóng vai trò là các chú thích cơ bản để dạy các hệ thống trí tuệ nhân tạo (AI) cách định vị và nhận dạng các đối tượng khác nhau. Thay vì chỉ đơn giản phân loại toàn bộ hình ảnh là "có chứa một chiếc ô tô", hộp giới hạn cho phép mô hình xác định chính xác vị trí và phạm vi không gian của chiếc ô tô, tách nó khỏi nền và các thực thể khác. Khả năng định vị này rất cần thiết cho các nhiệm vụ phát hiện đối tượng , trong đó mục tiêu là xác định nhiều đối tượng cùng một lúc với độ chính xác cao.

Khái niệm cốt lõi và tọa độ

Để xử lý dữ liệu hình ảnh hiệu quả, các mô hình học máy (ML) dựa vào các hệ tọa độ cụ thể để biểu diễn các hộp giới hạn một cách toán học. Định dạng được chọn thường quyết định cách dữ liệu được chuẩn bị cho việc huấn luyện mô hình và cách mô hình đưa ra dự đoán của nó.

  • Tọa độ XYXY : Định dạng này xác định một hình chữ nhật bằng cách sử dụng giá trị pixel tuyệt đối của góc trên bên trái và góc dưới bên phải. Nó trực quan đối với các công cụ trực quan hóa như OpenCV hoặc Matplotlib khi vẽ hình chữ nhật trực tiếp lên ảnh.
  • Định dạng XYWH : Thường gặp trong các tập dữ liệu như COCO , phương pháp này chỉ định điểm trung tâm của đối tượng, tiếp theo là chiều rộng và chiều cao của hộp. Biểu diễn này rất quan trọng để tính toán các hàm mất mát trong quá trình học.
  • Tọa độ chuẩn hóa : Để đảm bảo khả năng mở rộng trên các hình ảnh có độ phân giải khác nhau, tọa độ thường được chuẩn hóa về phạm vi từ 0 đến 1. Điều này giúp các mô hình tổng quát hóa tốt hơn khi phân tích đầu vào có kích thước khác nhau.

Các Ứng dụng Thực tế

Các hộp giới hạn là nền tảng của vô số giải pháp trí tuệ nhân tạo trong nhiều ngành công nghiệp khác nhau. Bằng cách cho phép định vị chính xác, chúng giúp các hệ thống tương tác thông minh với thế giới vật lý.

  • Xe tự hành : Xe tự lái sử dụng các hộp giới hạn để detect Và track Thông tin về người đi bộ, các phương tiện khác, biển báo giao thông và chướng ngại vật được hiển thị trong thời gian thực. Khả năng nhận thức không gian này rất quan trọng đối với các hệ thống định vị và an toàn để đưa ra quyết định trong tích tắc.
  • Phân tích bán lẻ : Trong các cửa hàng thông minh, hộp giới hạn giúp theo dõi hàng tồn kho trên kệ và track Tương tác của khách hàng với sản phẩm. Dữ liệu này có thể tự động hóa việc bổ sung hàng tồn kho và cung cấp thông tin chi tiết về hành vi mua sắm mà không cần đếm thủ công.

Hộp giới hạn trong thực tiễn

Khi sử dụng các kiến ​​trúc hiện đại như YOLO26Mô hình dự đoán các hộp giới hạn cùng với nhãn lớp và một điểm tự tinVí dụ sau đây minh họa cách chạy suy luận trên một hình ảnh và truy cập tọa độ hộp giới hạn bằng cách sử dụng... ultralytics bưu kiện.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Các thuật ngữ liên quan và sự khác biệt

Mặc dù hộp giới hạn là tiêu chuẩn cho việc phát hiện nói chung, chúng khác biệt với các loại chú thích khác được sử dụng trong các tác vụ chi tiết hơn.

  • Phân đoạn đối tượng : Không giống như hộp giới hạn hình chữ nhật, phân đoạn tạo ra một mặt nạ hoàn hảo đến từng pixel, theo sát đường viền chính xác của đối tượng. Điều này hữu ích khi hình dạng chính xác quan trọng hơn vị trí tổng quát.
  • Hộp giới hạn định hướng (OBB) : Các hộp giới hạn tiêu chuẩn được căn chỉnh theo trục (hình chữ nhật đứng). OBB có thể xoay để phù hợp với các đối tượng nghiêng, chẳng hạn như tàu thuyền trong ảnh vệ tinh hoặc các kiện hàng trên băng chuyền, giúp khớp chính xác hơn và giảm nhiễu nền.
  • Điểm mấu chốt : Thay vì bao quanh một đối tượng, điểm mấu chốt xác định các mốc cụ thể, chẳng hạn như các khớp trên cơ thể người để ước tính tư thế .

Công cụ chú thích và quản lý

Việc tạo ra các chú thích hộp giới hạn chất lượng cao là một bước quan trọng trong quy trình học máy. Nền tảng Ultralytics đơn giản hóa quá trình này bằng cách cung cấp các công cụ để chú thích dữ liệu và quản lý tập dữ liệu. Chú thích đúng cách đảm bảo rằng các mô hình học cách phân biệt các đối tượng một cách chính xác, giảm thiểu các lỗi như quá khớp hoặc nhầm lẫn nền. Các kỹ thuật tiên tiến như loại bỏ cực đại không đồng nhất ( NMS ) được sử dụng trong quá trình suy luận để tinh chỉnh các dự đoán này bằng cách loại bỏ các hộp chồng chéo, đảm bảo rằng chỉ còn lại phát hiện chính xác nhất cho mỗi đối tượng.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay