Hộp giới hạn
Tìm hiểu cách các hộp giới hạn cho phép phát hiện đối tượng, AI và hệ thống học máy. Khám phá vai trò của chúng trong các ứng dụng thị giác máy tính!
Hộp giới hạn là một chú thích hình chữ nhật được sử dụng trong thị giác máy tính để chỉ ra vị trí của một vật thể trong khung hình ảnh hoặc video. Nó đóng vai trò là thành phần cơ bản của phát hiện vật thể , cung cấp một cách đơn giản nhưng hiệu quả để xác định vị trí và tỷ lệ của vật thể. Trong học máy , các mô hình được huấn luyện trên các tập dữ liệu hình ảnh lớn với các hộp giới hạn được gắn nhãn để học cách tự nhận dạng và định vị các vật thể. Đầu ra của các mô hình này bao gồm tọa độ của hộp, nhãn lớp (ví dụ: "xe hơi", "người") và điểm số tin cậy cho biết độ chắc chắn của mô hình trong dự đoán của nó.
Hộp giới hạn hoạt động như thế nào
Hộp giới hạn thường được xác định bằng một tập hợp tọa độ xác định vị trí và kích thước của nó. Các biểu diễn phổ biến nhất là:
- Tọa độ góc trên bên trái có chiều rộng và chiều cao (x, y, w, h) : Định dạng này chỉ định tọa độ x và y của góc trên bên trái, cùng với chiều rộng và chiều cao của hộp.
- Điểm góc (x_min, y_min, x_max, y_max) : Định dạng này xác định tọa độ của góc trên bên trái và góc dưới bên phải của hình chữ nhật.
Các tọa độ này được sử dụng để huấn luyện các mô hình học sâu , giúp học cách dự đoán các giá trị này cho các hình ảnh mới, chưa từng thấy. Độ chính xác của một khung giới hạn dự đoán thường được đánh giá bằng một phép đo gọi là Giao điểm trên Hợp (IoU) , dùng để đo lường sự chồng lấn giữa khung dự đoán và khung thực tế. Các mô hình phát hiện đối tượng hiện đại, chẳng hạn như Ultralytics YOLO11 , được tối ưu hóa cao để tạo ra các khung giới hạn chính xác theo thời gian thực .
Các loại hộp giới hạn
Có hai loại hộp giới hạn chính:
- Hộp giới hạn căn chỉnh trục : Đây là loại phổ biến nhất, trong đó các cạnh của hình chữ nhật được căn chỉnh theo trục ngang và trục dọc của hình ảnh. Kiểu này dễ biểu diễn và xử lý nhưng có thể không hiệu quả đối với các đối tượng bị xoay hoặc có hình dạng bất thường, vì hộp có thể chiếm một vùng nền đáng kể.
- Hộp giới hạn định hướng (OBB) : Loại hộp này bao gồm một tham số bổ sung cho phép xoay, cho phép nó vừa khít hơn với các vật thể nghiêng. OBB đặc biệt hữu ích trong các ứng dụng chuyên biệt như phân tích ảnh vệ tinh hoặc ảnh hàng không từ máy bay không người lái, nơi các vật thể thường được nhìn từ nhiều góc độ khác nhau. Các mô hình như YOLO11 hỗ trợ phát hiện vật thể định hướng để xử lý các tình huống này hiệu quả hơn.
Mối quan hệ với các khái niệm khác
Hộp giới hạn có liên quan chặt chẽ với các tác vụ thị giác máy tính khác nhưng phục vụ một mục đích riêng biệt.
- Phát hiện Đối tượng so với Phân đoạn Ảnh : Trong khi phát hiện đối tượng sử dụng hộp giới hạn để định vị đối tượng, phân đoạn ảnh cung cấp hiểu biết chi tiết hơn về hình dạng của đối tượng. Ví dụ, phân đoạn thể hiện tiến xa hơn một bước bằng cách phác thảo ranh giới chính xác đến từng pixel của từng đối tượng riêng biệt, thay vì chỉ vẽ một hình chữ nhật xung quanh nó. Điều này hữu ích cho các ứng dụng yêu cầu thông tin hình dạng chính xác. Bạn có thể tìm hiểu thêm thông tin trong hướng dẫn về phân đoạn thể hiện này.
- Hộp giới hạn so với Hộp neo : Trong một số mô hình phát hiện đối tượng, được gọi là bộ phát hiện dựa trên neo , các hộp được xác định trước, gọi là "hộp neo", được sử dụng làm tham chiếu để giúp mô hình dự đoán hộp giới hạn cuối cùng. Ngược lại, bộ phát hiện không neo dự đoán trực tiếp các hộp giới hạn mà không cần các cài đặt trước này, thường giúp đơn giản hóa kiến trúc mô hình.
Ứng dụng trong các tình huống thực tế
Hộp giới hạn là một phần không thể thiếu trong nhiều ứng dụng AI thực tế:
- Xe tự hành : Xe tự lái chủ yếu dựa vào khả năng phát hiện vật thể để xác định và định vị người đi bộ, các phương tiện khác và đèn giao thông bằng hộp giới hạn. Nhận thức không gian này, thường đạt được thông qua các mô hình học sâu , rất quan trọng cho việc điều hướng an toàn. Các công ty như Waymo đã giới thiệu rộng rãi công nghệ này. Ultralytics cung cấp thông tin chi tiết về AI trong xe tự lái .
- Phân tích bán lẻ : Trong bán lẻ, hộp giới hạn hỗ trợ quản lý hàng tồn kho bằng AI bằng cách phát hiện sản phẩm trên kệ, theo dõi mức tồn kho và phân tích hành vi của khách hàng thông qua các mẫu lưu lượng đi bộ ( đếm đối tượng ).
- An ninh và Giám sát : Hộp giới hạn cho phép hệ thống giám sát tự động phát hiện và theo dõi cá nhân hoặc vật thể theo thời gian thực, kích hoạt cảnh báo khi có hoạt động đáng ngờ. Đây là nền tảng cho việc xây dựng các ứng dụng như hệ thống báo động an ninh .
- Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, hộp giới hạn hỗ trợ bác sĩ lâm sàng bằng cách làm nổi bật các bất thường tiềm ẩn như khối u trong ảnh chụp, giúp chẩn đoán nhanh hơn. Bạn có thể xem các ví dụ về điều này trong nghiên cứu X quang: Trí tuệ nhân tạo và trên trang phân tích hình ảnh y tế của chúng tôi.
- Nông nghiệp : Hộp giới hạn được sử dụng trong nông nghiệp chính xác cho các nhiệm vụ như xác định trái cây để thu hoạch, theo dõi sức khỏe cây trồng hoặc phát hiện sâu bệnh, như được trình bày chi tiết trong blog của chúng tôi về thị giác máy tính trong nông nghiệp .