Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hộp neo

Tìm hiểu cách hộp neo cho phép phát hiện đối tượng dựa trên neo, ưu tiên cho phân loại, hồi quy và NMS , với các ứng dụng trong lĩnh vực lái xe tự động và bán lẻ.

Hộp neo đóng vai trò là khái niệm nền tảng trong kiến trúc của nhiều mô hình phát hiện đối tượng , hoạt động như các tham chiếu được xác định trước để dự đoán vị trí và kích thước của đối tượng. Thay vì quét ảnh để tìm kiếm các đối tượng có kích thước tùy ý từ đầu, mô hình sử dụng các hình dạng cố định này - được xác định bởi chiều cao và chiều rộng cụ thể - làm điểm khởi đầu, hay còn gọi là giá trị tiên nghiệm. Cách tiếp cận này đơn giản hóa quá trình học bằng cách biến nhiệm vụ đầy thách thức là dự đoán tọa độ tuyệt đối thành một bài toán hồi quy dễ quản lý hơn, trong đó mạng học cách điều chỉnh, hay "bù trừ", các khuôn mẫu này cho phù hợp với các đối tượng thực tế . Kỹ thuật này đóng vai trò then chốt trong sự thành công của các kiến trúc phổ biến như họ Faster R-CNN và các máy dò một tầng đầu tiên.

Hộp neo hoạt động như thế nào

Cơ chế của hộp neo bao gồm việc xếp chồng hình ảnh đầu vào với một lưới dày đặc các tâm. Tại mỗi ô lưới, nhiều hộp neo với tỷ lệ khung hình và tỷ lệ khác nhau được tạo ra để chứa các vật thể có hình dạng khác nhau, chẳng hạn như người đi bộ cao hoặc xe cộ rộng. Trong giai đoạn huấn luyện mô hình , hệ thống sẽ so khớp các neo này với các vật thể thực tế bằng một phép đo gọi là Giao điểm trên Hợp nhất ( IoU ) . Các neo chồng chéo đáng kể với vật thể mục tiêu được gắn nhãn là mẫu dương.

Xương sống của máy dò trích xuất các đặc điểm từ hình ảnh, đầu phát hiện sử dụng các đặc điểm này để thực hiện hai nhiệm vụ song song cho mỗi điểm neo dương:

  • Phân loại : Mô hình dự đoán xác suất mỏ neo chứa một lớp đối tượng cụ thể, gán điểm tin cậy .
  • Hồi quy hộp : Mạng tính toán độ lệch tọa độ chính xác cần thiết để định hình lại mỏ neo thành hộp giới hạn cuối cùng bao quanh chặt chẽ đối tượng.

Để xử lý các dự đoán chồng chéo cho cùng một đối tượng, một bước hậu xử lý được gọi là NMS (Non-Maximum Suppression) sẽ lọc bỏ các hộp thừa, chỉ giữ lại hộp có độ tin cậy cao nhất. Các nền tảng như PyTorchTensorFlow cung cấp các công cụ tính toán cần thiết để triển khai các phép toán phức tạp này một cách hiệu quả.

Mỏ neo so với các khái niệm liên quan

Để hiểu được hộp neo, cần phải phân biệt chúng với các thuật ngữ tương tự trong thị giác máy tính (CV) .

  • Hộp neo so với Hộp giới hạn : Hộp neo là một khuôn mẫu lý thuyết, cố định được sử dụng làm giả thuyết trong quá trình xử lý. Hộp giới hạn là đầu ra cuối cùng, được tinh chỉnh, chứa tọa độ của đối tượng được phát hiện.
  • Dựa trên neo so với Không neo : Các bộ phát hiện dựa trên neo truyền thống, như YOLOv5 , dựa vào các cài đặt trước thủ công này. Ngược lại, các bộ phát hiện không neo hiện đại, như Ultralytics YOLO11 , dự đoán trực tiếp tâm đối tượng hoặc điểm chính. Sự thay đổi này giúp đơn giản hóa thiết kế mô hình bằng cách loại bỏ nhu cầu điều chỉnh siêu tham số liên quan đến kích thước neo, thường cải thiện khả năng khái quát hóa trên các tập dữ liệu như COCO .

Các Ứng dụng Thực tế

Bản chất có cấu trúc của hộp neo khiến chúng đặc biệt hiệu quả trong môi trường mà hình dạng vật thể nhất quán và có thể dự đoán được.

  1. Lái xe tự động : Các hệ thống được phát triển cho xe tự hành dựa trên việc phát hiện các vật thể tiêu chuẩn như ô tô, xe tải và biển báo giao thông. Vì các vật thể này có tỷ lệ khung hình tương đối cố định, hộp neo có thể được điều chỉnh để ghi lại chúng một cách hiệu quả. Các công ty như Waymo sử dụng các đường ống phát hiện tinh vi để đảm bảo an toàn trong các tình huống giao thông phức tạp.
  2. Quản lý hàng tồn kho bán lẻ : Trong phân tích bán lẻ , hệ thống thị giác giám sát các kệ hàng để detect Mức tồn kho. Hàng hóa đóng gói thường có hình dạng đồng nhất, cho phép các mô hình dựa trên mỏ neo đếm chính xác các mặt hàng và xác định các sản phẩm hết hàng. Tự động hóa này hỗ trợ quản lý hàng tồn kho bằng AI , giảm thiểu lao động thủ công.

Ví dụ mã

Trong khi các mô hình hiện đại như YOLO11 không có mỏ neo, các phiên bản trước đó như YOLOv5 sử dụng hộp neo. Các ultralytics Gói này trừu tượng hóa sự phức tạp này, cho phép người dùng chạy suy luận mà không cần cấu hình thủ công các neo. Ví dụ sau minh họa việc tải một mô hình được đào tạo trước vào detect các đối tượng:

from ultralytics import YOLO

# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")

# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected bounding boxes
results[0].show()

Đối với những người quan tâm đến nền tảng toán học của các hệ thống này, các nền tảng giáo dục như CourseraDeepLearning.AI cung cấp các khóa học chuyên sâu về mạng nơ-ron tích chập và phát hiện đối tượng.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay