Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Các bộ dò tìm dựa trên Anchor

Khám phá cách các bộ dò tìm dựa trên anchor cách mạng hóa việc phát hiện đối tượng với khả năng định vị chính xác, khả năng thích ứng quy mô và các ứng dụng thực tế.

Bộ phát hiện dựa trên neo là một lớp mô hình cơ bản được sử dụng trong thị giác máy tính (CV) để giải quyết vấn đề phát hiện đối tượng . Các hệ thống này dựa trên một tập hợp các hộp giới hạn được xác định trước, được gọi là hộp neo , hoạt động như các mẫu tham chiếu được xếp chồng lên nhau trên một hình ảnh. Thay vì cố gắng dự đoán vị trí của một đối tượng từ đầu, mạng sẽ tính toán mức độ dịch chuyển và tỷ lệ các neo cố định này để phù hợp chặt chẽ với các đối tượng trong cảnh. Phương pháp này về cơ bản chuyển đổi nhiệm vụ định vị phức tạp thành một bài toán hồi quy có cấu trúc, cung cấp một điểm khởi đầu ổn định cho các mô hình học sâu (DL) để học các phân cấp không gian.

Cơ chế phát hiện dựa trên mỏ neo

Quy trình làm việc của bộ phát hiện dựa trên neo bao gồm việc tạo ra một lưới dày đặc các neo trên ảnh đầu vào, mỗi neo có tỷ lệ và tỷ lệ khung hình khác nhau để ghi lại các đối tượng có kích thước và hình dạng khác nhau. Khi ảnh đi qua xương sống của mô hình, bản đồ đặc trưng được trích xuất và phân tích. Với mỗi vị trí neo, đầu phát hiện thực hiện hai dự đoán đồng thời:

  1. Phân loại: Mô hình gán điểm xác suất cho biết liệu mỏ neo có chứa một lớp đối tượng cụ thể hay chỉ đơn giản là tiếng ồn nền.
  2. Hồi quy hộp giới hạn: Mô hình dự đoán các giá trị bù trừ (tọa độ tâm, chiều rộng và chiều cao) để điều chỉnh kích thước của mỏ neo sao cho phù hợp với hộp giới hạn thực tế.

Trong quá trình huấn luyện mô hình , các thuật toán sử dụng một phép đo gọi là Giao điểm trên Hợp nhất ( IoU ) để xác định các mỏ neo nào chồng chéo đủ mức với các đối tượng đã biết. Chỉ những mỏ neo có giá trị cao nhất IoU được coi là mẫu dương tính. Vì quy trình này tạo ra hàng nghìn hộp ứng viên, nên một bước hậu xử lý được gọi là Loại bỏ Không Tối đa ( NMS ) được áp dụng để loại bỏ các phần chồng chéo dư thừa và chỉ giữ lại kết quả phát hiện chính xác nhất.

Kiến trúc dựa trên neo so với kiến trúc không neo

Điều quan trọng là phải phân biệt các mô hình này với thế hệ máy dò không neo hiện đại. Trong khi các hệ thống dựa trên neo như Faster R-CNN ban đầu và Ultralytics YOLOv5 dựa vào việc điều chỉnh thủ công các kích thước neo, các mô hình không neo dự đoán trực tiếp tâm đối tượng hoặc điểm chính.

  • Dựa trên Anchor: Yêu cầu xác định siêu tham số cho kích thước và tỷ lệ neo, có thể nhạy cảm với các tập dữ liệu cụ thể. Về mặt lịch sử, chúng rất mạnh mẽ đối với các đối tượng tiêu chuẩn.
  • Không neo: Loại bỏ nhu cầu sử dụng các hộp cài đặt sẵn, đơn giản hóa kiến trúc và giảm thiểu chi phí tính toán. Ultralytics YOLO11 tiên tiến sử dụng phương pháp không neo để đạt được tốc độ và tính linh hoạt vượt trội, đặc biệt đối với các đối tượng có hình dạng bất thường. Bạn có thể tìm hiểu thêm về lợi ích của thiết kế không neo trong YOLO11 trên blog của chúng tôi.

Các Ứng dụng Thực tế

Bất chấp sự xuất hiện của các phương pháp mới hơn, các máy dò dựa trên mỏ neo vẫn phổ biến trong nhiều đường ống đã được thiết lập, nơi hình dạng vật thể nhất quán và có thể dự đoán được.

  • Lái xe tự động: Trong quá trình phát triển xe tự động , các hệ thống phải đáng tin cậy detect Ô tô, xe tải và biển báo giao thông. Vì xe cộ thường duy trì tỷ lệ khung hình nhất quán, nên các mô hình dựa trên mỏ neo rất hiệu quả đối với các hệ thống nhận thức được sử dụng bởi các công ty hàng đầu trong ngành như WaymoMobileye .
  • Quản lý hàng tồn kho bán lẻ: Đối với AI trong bán lẻ , camera giám sát kệ hàng để track mức tồn kho. Các sản phẩm như hộp ngũ cốc hoặc lon nước giải khát có hình dạng chuẩn hóa, phù hợp hoàn hảo với các mẫu neo đã điều chỉnh, cho phép đếm và theo dõi đối tượng với độ chính xác cao.

Thực hiện với Ultralytics

Bạn có thể dễ dàng thử nghiệm với phát hiện đối tượng bằng cách sử dụng ultralytics Gói. Mặc dù các mô hình mới nhất không có neo, nhưng khung này hỗ trợ nhiều kiến trúc khác nhau. Ví dụ sau đây minh họa cách chạy suy luận trên hình ảnh bằng cách sử dụng một mô hình được đào tạo trước:

from ultralytics import YOLO

# Load a pre-trained object detection model
# Note: YOLOv5 is a classic example of an anchor-based architecture
model = YOLO("yolov5su.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Hiểu được cơ chế của các máy dò dựa trên mỏ neo cung cấp nền tảng vững chắc để nắm bắt sự phát triển của thị giác máy tính và các lựa chọn thiết kế đằng sau các thuật toán tiên tiến như YOLO11 và các phiên bản tương lai như YOLO26 .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay