Khám phá cách các bộ dò tìm dựa trên anchor cách mạng hóa việc phát hiện đối tượng với khả năng định vị chính xác, khả năng thích ứng quy mô và các ứng dụng thực tế.
Các detector dựa trên anchor là một lớp mô hình object detection (phát hiện đối tượng) nền tảng trong computer vision (thị giác máy tính). Các mô hình này hoạt động bằng cách sử dụng một tập hợp các hộp được xác định trước, được gọi là anchor box (hộp neo), để xác định và định vị các đối tượng trong một hình ảnh. Anchor box về cơ bản là một lưới các template (mẫu) với nhiều kích thước và tỷ lệ khung hình khác nhau, được xếp trên toàn bộ hình ảnh. Mô hình dự đoán cách dịch chuyển và масштабирование các anchor này để khớp với bounding box (khung giới hạn) ground-truth của các đối tượng, cùng với điểm tin cậy cho biết sự hiện diện của một đối tượng. Cách tiếp cận này đơn giản hóa bài toán tìm kiếm đối tượng bằng cách biến nó thành một nhiệm vụ hồi quy và phân loại tương ứng với các anchor cố định này.
Các ví dụ điển hình về kiến trúc dựa trên anchor bao gồm họ R-CNN, chẳng hạn như Faster R-CNN, và các detector một giai đoạn đời đầu như SSD (Single Shot MultiBox Detector) và nhiều mô hình YOLO, bao gồm cả Ultralytics YOLOv5 rất thành công.
Ý tưởng cốt lõi đằng sau phát hiện dựa trên anchor (anchor-based detection) là sử dụng một tập hợp các hộp tham chiếu được xác định trước làm điểm khởi đầu. Trong quá trình huấn luyện mô hình, bộ phát hiện (detector) học cách thực hiện hai nhiệm vụ chính cho mỗi hộp anchor:
Các dự đoán này được thực hiện bởi detection head của mô hình sau khi xử lý các đặc trưng hình ảnh được trích xuất bởi backbone. Vì một đối tượng duy nhất có thể được phát hiện bởi nhiều anchor box, nên một bước hậu xử lý gọi là Non-Maximum Suppression (NMS) được sử dụng để lọc ra các phát hiện dư thừa và chỉ giữ lại box phù hợp nhất. Hiệu suất của các mô hình này thường được đánh giá bằng các số liệu như mean Average Precision (mAP) và Intersection over Union (IoU).
Trong những năm gần đây, các bộ dò tìm không neo đã nổi lên như một giải pháp thay thế phổ biến. Không giống như các mô hình dựa trên neo, các phương pháp không neo dự đoán trực tiếp vị trí và kích thước của đối tượng, thường bằng cách xác định các điểm chính (như tâm hoặc góc của đối tượng) hoặc dự đoán khoảng cách từ một điểm đến ranh giới của đối tượng, loại bỏ nhu cầu về các hình dạng neo được xác định trước.
Các điểm khác biệt chính bao gồm:
Mặc dù các detector dựa trên anchor như YOLOv4 đã rất thành công, nhưng nhiều kiến trúc hiện đại, bao gồm Ultralytics YOLO11, đã áp dụng các thiết kế không cần anchor để tận dụng lợi ích của chúng về tính đơn giản và hiệu quả. Bạn có thể khám phá những ưu điểm của việc phát hiện không cần anchor trong YOLO11 và xem so sánh giữa các mô hình YOLO khác nhau.
Các detector dựa trên anchor được sử dụng rộng rãi trong nhiều ứng dụng, nơi các đối tượng có hình dạng và kích thước tương đối chuẩn.
Việc phát triển và triển khai các mô hình phát hiện đối tượng, dù là dựa trên anchor hay không anchor, đều liên quan đến việc sử dụng các framework như PyTorch hoặc TensorFlow và các thư viện như OpenCV. Các nền tảng như Ultralytics HUB cung cấp quy trình làm việc hợp lý để huấn luyện các mô hình tùy chỉnh, quản lý bộ dữ liệu và triển khai các giải pháp, hỗ trợ nhiều kiến trúc mô hình khác nhau. Để học thêm, các tài nguyên như Papers With Code liệt kê các mô hình hiện đại nhất và các khóa học từ các nền tảng như DeepLearning.AI bao gồm các khái niệm cơ bản.