Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Các bộ dò tìm dựa trên Anchor

Khám phá cách các bộ dò tìm dựa trên anchor cách mạng hóa việc phát hiện đối tượng với khả năng định vị chính xác, khả năng thích ứng quy mô và các ứng dụng thực tế.

Các detector dựa trên anchor là một lớp mô hình object detection (phát hiện đối tượng) nền tảng trong computer vision (thị giác máy tính). Các mô hình này hoạt động bằng cách sử dụng một tập hợp các hộp được xác định trước, được gọi là anchor box (hộp neo), để xác định và định vị các đối tượng trong một hình ảnh. Anchor box về cơ bản là một lưới các template (mẫu) với nhiều kích thước và tỷ lệ khung hình khác nhau, được xếp trên toàn bộ hình ảnh. Mô hình dự đoán cách dịch chuyển và масштабирование các anchor này để khớp với bounding box (khung giới hạn) ground-truth của các đối tượng, cùng với điểm tin cậy cho biết sự hiện diện của một đối tượng. Cách tiếp cận này đơn giản hóa bài toán tìm kiếm đối tượng bằng cách biến nó thành một nhiệm vụ hồi quy và phân loại tương ứng với các anchor cố định này.

Các ví dụ điển hình về kiến trúc dựa trên anchor bao gồm họ R-CNN, chẳng hạn như Faster R-CNN, và các detector một giai đoạn đời đầu như SSD (Single Shot MultiBox Detector) và nhiều mô hình YOLO, bao gồm cả Ultralytics YOLOv5 rất thành công.

Cách Bộ dò Tìm Dựa trên Anchor Hoạt Động

Ý tưởng cốt lõi đằng sau phát hiện dựa trên anchor (anchor-based detection) là sử dụng một tập hợp các hộp tham chiếu được xác định trước làm điểm khởi đầu. Trong quá trình huấn luyện mô hình, bộ phát hiện (detector) học cách thực hiện hai nhiệm vụ chính cho mỗi hộp anchor:

  1. Phân loại: Xác định xem một anchor box có chứa một đối tượng quan tâm hay chỉ là nền.
  2. Hồi quy (Regression): Tính toán độ lệch chính xác (x, y, chiều rộng, chiều cao) cần thiết để điều chỉnh anchor box sao cho nó bao quanh chặt chẽ đối tượng được phát hiện.

Các dự đoán này được thực hiện bởi detection head của mô hình sau khi xử lý các đặc trưng hình ảnh được trích xuất bởi backbone. Vì một đối tượng duy nhất có thể được phát hiện bởi nhiều anchor box, nên một bước hậu xử lý gọi là Non-Maximum Suppression (NMS) được sử dụng để lọc ra các phát hiện dư thừa và chỉ giữ lại box phù hợp nhất. Hiệu suất của các mô hình này thường được đánh giá bằng các số liệu như mean Average Precision (mAP)Intersection over Union (IoU).

So sánh giữa Detector dựa trên Anchor và Detector không dựa trên Anchor

Trong những năm gần đây, các bộ dò tìm không neo đã nổi lên như một giải pháp thay thế phổ biến. Không giống như các mô hình dựa trên neo, các phương pháp không neo dự đoán trực tiếp vị trí và kích thước của đối tượng, thường bằng cách xác định các điểm chính (như tâm hoặc góc của đối tượng) hoặc dự đoán khoảng cách từ một điểm đến ranh giới của đối tượng, loại bỏ nhu cầu về các hình dạng neo được xác định trước.

Các điểm khác biệt chính bao gồm:

  • Độ phức tạp: Các mô hình dựa trên anchor đòi hỏi thiết kế và điều chỉnh cẩn thận các tham số anchor (kích thước, tỷ lệ, scale), có thể phụ thuộc vào tập dữ liệu. Các mô hình không dựa trên anchor giúp đơn giản hóa thiết kế phần detection head.
  • Tính linh hoạt: Các phương pháp không neo có thể thích ứng tốt hơn với các đối tượng có tỷ lệ khung hình hoặc hình dạng bất thường, không được biểu diễn tốt bằng bộ neo cố định.
  • Hiệu quả (Efficiency): Việc loại bỏ các anchor có thể làm giảm số lượng dự đoán mà mô hình cần thực hiện, có khả năng dẫn đến suy luận (inference) nhanh hơn và xử lý hậu kỳ đơn giản hơn.

Mặc dù các detector dựa trên anchor như YOLOv4 đã rất thành công, nhưng nhiều kiến trúc hiện đại, bao gồm Ultralytics YOLO11, đã áp dụng các thiết kế không cần anchor để tận dụng lợi ích của chúng về tính đơn giản và hiệu quả. Bạn có thể khám phá những ưu điểm của việc phát hiện không cần anchor trong YOLO11 và xem so sánh giữa các mô hình YOLO khác nhau.

Các Ứng dụng Thực tế

Các detector dựa trên anchor được sử dụng rộng rãi trong nhiều ứng dụng, nơi các đối tượng có hình dạng và kích thước tương đối chuẩn.

  • Lái xe tự động: Trong các giải pháp cho ngành công nghiệp ô tô, các detector này rất xuất sắc trong việc xác định xe cộ, người đi bộ và biển báo giao thông. Hình dạng có thể đoán trước của các đối tượng này phù hợp với các anchor được xác định trước, cho phép phát hiện đáng tin cậy cho các công ty như NVIDIATesla.
  • Phân tích bán lẻ: Đối với quản lý hàng tồn kho dựa trên AI, các mô hình dựa trên neo có thể quét hiệu quả các kệ hàng để đếm sản phẩm. Kích thước và hình dạng đồng nhất của hàng hóa đóng gói làm cho chúng trở thành ứng cử viên lý tưởng cho phương pháp này, giúp tự động hóa việc theo dõi hàng tồn kho.
  • An ninh và Giám sát: Xác định người hoặc phương tiện trong cảnh quay từ camera giám sát cố định là một trường hợp sử dụng mạnh mẽ khác. Đây là nền tảng cho các ứng dụng như hướng dẫn hệ thống báo động an ninh Ultralytics.

Công cụ và Đào tạo

Việc phát triển và triển khai các mô hình phát hiện đối tượng, dù là dựa trên anchor hay không anchor, đều liên quan đến việc sử dụng các framework như PyTorch hoặc TensorFlow và các thư viện như OpenCV. Các nền tảng như Ultralytics HUB cung cấp quy trình làm việc hợp lý để huấn luyện các mô hình tùy chỉnh, quản lý bộ dữ liệu và triển khai các giải pháp, hỗ trợ nhiều kiến trúc mô hình khác nhau. Để học thêm, các tài nguyên như Papers With Code liệt kê các mô hình hiện đại nhất và các khóa học từ các nền tảng như DeepLearning.AI bao gồm các khái niệm cơ bản.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard