Tìm hiểu cách hộp neo cho phép phát hiện đối tượng dựa trên neo, ưu tiên cho phân loại, hồi quy và NMS , với các ứng dụng trong lĩnh vực lái xe tự động và bán lẻ.
Hộp neo đóng vai trò là khái niệm nền tảng trong kiến trúc của nhiều mô hình phát hiện đối tượng , hoạt động như các tham chiếu được xác định trước để dự đoán vị trí và kích thước của đối tượng. Thay vì quét ảnh để tìm kiếm các đối tượng có kích thước tùy ý từ đầu, mô hình sử dụng các hình dạng cố định này - được xác định bởi chiều cao và chiều rộng cụ thể - làm điểm khởi đầu, hay còn gọi là giá trị tiên nghiệm. Cách tiếp cận này đơn giản hóa quá trình học bằng cách biến nhiệm vụ đầy thách thức là dự đoán tọa độ tuyệt đối thành một bài toán hồi quy dễ quản lý hơn, trong đó mạng học cách điều chỉnh, hay "bù trừ", các khuôn mẫu này cho phù hợp với các đối tượng thực tế . Kỹ thuật này đóng vai trò then chốt trong sự thành công của các kiến trúc phổ biến như họ Faster R-CNN và các máy dò một tầng đầu tiên.
Cơ chế của hộp neo bao gồm việc xếp chồng hình ảnh đầu vào với một lưới dày đặc các tâm. Tại mỗi ô lưới, nhiều hộp neo với tỷ lệ khung hình và tỷ lệ khác nhau được tạo ra để chứa các vật thể có hình dạng khác nhau, chẳng hạn như người đi bộ cao hoặc xe cộ rộng. Trong giai đoạn huấn luyện mô hình , hệ thống sẽ so khớp các neo này với các vật thể thực tế bằng một phép đo gọi là Giao điểm trên Hợp nhất ( IoU ) . Các neo chồng chéo đáng kể với vật thể mục tiêu được gắn nhãn là mẫu dương.
Xương sống của máy dò trích xuất các đặc điểm từ hình ảnh, đầu phát hiện sử dụng các đặc điểm này để thực hiện hai nhiệm vụ song song cho mỗi điểm neo dương:
Để xử lý các dự đoán chồng chéo cho cùng một đối tượng, một bước hậu xử lý được gọi là NMS (Non-Maximum Suppression) sẽ lọc bỏ các hộp thừa, chỉ giữ lại hộp có độ tin cậy cao nhất. Các nền tảng như PyTorch và TensorFlow cung cấp các công cụ tính toán cần thiết để triển khai các phép toán phức tạp này một cách hiệu quả.
Để hiểu được hộp neo, cần phải phân biệt chúng với các thuật ngữ tương tự trong thị giác máy tính (CV) .
Bản chất có cấu trúc của hộp neo khiến chúng đặc biệt hiệu quả trong môi trường mà hình dạng vật thể nhất quán và có thể dự đoán được.
Trong khi các mô hình hiện đại như YOLO11 không có mỏ neo, các phiên bản trước đó như YOLOv5 sử dụng hộp neo. Các
ultralytics Gói này trừu tượng hóa sự phức tạp này, cho phép người dùng chạy suy luận mà không cần cấu hình thủ công các neo. Ví dụ sau minh họa việc tải một mô hình được đào tạo trước vào detect các đối tượng:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Đối với những người quan tâm đến nền tảng toán học của các hệ thống này, các nền tảng giáo dục như Coursera và DeepLearning.AI cung cấp các khóa học chuyên sâu về mạng nơ-ron tích chập và phát hiện đối tượng.