Tìm hiểu cách hộp neo cho phép phát hiện đối tượng dựa trên neo, phân loại trước, hồi quy và NMS, với các ứng dụng trong lái xe tự động và bán lẻ.
Hộp neo là một thành phần nền tảng trong nhiều mô hình phát hiện đối tượng dựa trên neo , đóng vai trò là một tập hợp các hộp tham chiếu được xác định trước với chiều cao và chiều rộng cụ thể. Các hộp này hoạt động như các dự đoán trước, hay các phỏng đoán có căn cứ, về vị trí và tỷ lệ tiềm năng của các đối tượng trong ảnh. Thay vì tìm kiếm đối tượng một cách mù quáng, các mô hình sử dụng các neo này làm điểm khởi đầu, dự đoán các giá trị offset để tinh chỉnh vị trí và kích thước của chúng cho phù hợp với đối tượng thực tế. Cách tiếp cận này biến nhiệm vụ định vị đối tượng phức tạp thành một bài toán hồi quy dễ quản lý hơn, trong đó mô hình học cách điều chỉnh các mẫu này thay vì tạo hộp từ đầu.
Cơ chế cốt lõi bao gồm việc xếp chồng một hình ảnh với một lưới dày đặc các hộp neo ở nhiều vị trí khác nhau. Tại mỗi vị trí, nhiều neo với tỷ lệ và tỷ lệ khung hình khác nhau được sử dụng để đảm bảo các vật thể có hình dạng và kích thước đa dạng có thể được phát hiện hiệu quả. Trong quá trình huấn luyện mô hình , xương sống của bộ phát hiện trước tiên sẽ trích xuất một bản đồ đặc trưng từ hình ảnh đầu vào. Sau đó, đầu phát hiện sử dụng các đặc trưng này để thực hiện hai tác vụ cho mỗi hộp neo:
Mô hình sử dụng các số liệu như Giao điểm trên Hợp nhất (IoU) để xác định hộp neo nào khớp nhất với các đối tượng thực tế trong quá trình huấn luyện. Sau khi dự đoán, một bước hậu xử lý gọi là NMS (Non-Maximum Suppression) được áp dụng để loại bỏ các hộp trùng lặp và dư thừa cho cùng một đối tượng.
Điều quan trọng là phải phân biệt hộp neo với các thuật ngữ liên quan trong thị giác máy tính :
Phương pháp tiếp cận có cấu trúc của hộp neo giúp chúng hiệu quả trong các tình huống mà các đối tượng có hình dạng và kích thước có thể dự đoán được.
Các mô hình này thường được phát triển bằng các nền tảng học sâu mạnh mẽ như PyTorch và TensorFlow . Để tiếp tục học tập, các nền tảng như DeepLearning.AI cung cấp các khóa học toàn diện về kiến thức cơ bản về thị giác máy tính.