Khám phá tốc độ và hiệu quả của các máy dò vật thể một giai đoạn như YOLO, lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.
Trong lĩnh vực thị giác máy tính (CV) , đặc biệt là đối với phát hiện đối tượng , tốc độ và hiệu quả thường quan trọng như độ chính xác. Các máy dò đối tượng một giai đoạn là một lớp mô hình học sâu được thiết kế với những ưu tiên này trong tâm trí, cung cấp một phương pháp hợp lý để xác định và định vị các đối tượng trong hình ảnh hoặc video. Không giống như các đối tác hai giai đoạn của chúng, các máy dò một giai đoạn thực hiện định vị đối tượng (xác định vị trí của đối tượng) và phân loại (xác định đối tượng là gì ) trong một lần truyền tiếp duy nhất của mạng nơ-ron . Thiết kế này làm cho chúng nhanh hơn đáng kể và rất phù hợp cho các ứng dụng suy luận thời gian thực .
Các máy dò vật thể một giai đoạn được đặc trưng bởi thiết kế đầu cuối của chúng, giúp tránh một bước riêng biệt, tốn nhiều tính toán để đề xuất các vùng quan tâm (các vùng có khả năng chứa các vật thể). Thay vào đó, chúng coi việc phát hiện vật thể như một vấn đề hồi quy. Mô hình xử lý toàn bộ hình ảnh đầu vào một lần, thường sử dụng mạng xương sống (thường là Mạng nơ-ron tích chập hoặc CNN ) để trích xuất các đặc điểm . Các đặc điểm này sau đó được đưa trực tiếp vào đầu phát hiện để dự đoán tọa độ hộp giới hạn , xác suất lớp và điểm tin cậy đồng thời trên lưới hình ảnh hoặc các vị trí bản đồ đặc điểm. Kiến trúc một lần này nhấn mạnh vào tốc độ, khiến nó trở nên lý tưởng cho các ứng dụng cần xử lý nhanh. Các ví dụ phổ biến bao gồm họ mô hình YOLO của Ultralytics , được biết đến với khả năng cân bằng tốc độ và độ chính xác (như YOLO11 ) và SSD (Máy dò MultiBox một lần chụp) do Google Research phát triển. Nhiều máy dò một giai đoạn hiện đại cũng không có mỏ neo , giúp đơn giản hóa hơn nữa đường ống so với các phương pháp dựa trên mỏ neo cũ hơn.
Sự khác biệt cơ bản giữa các máy dò đối tượng một giai đoạn và hai giai đoạn nằm ở đường ống hoạt động của chúng. Các máy dò hai giai đoạn, chẳng hạn như R-CNN (CNN theo vùng) có ảnh hưởng và các thế hệ kế nhiệm như Faster R-CNN , trước tiên tạo ra nhiều đề xuất vùng bằng các phương pháp như Tìm kiếm có chọn lọc hoặc Mạng đề xuất vùng (RPN). Trong giai đoạn riêng biệt thứ hai, các đề xuất này được phân loại và các hộp giới hạn của chúng được tinh chỉnh. Quy trình hai bước này thường đạt được độ chính xác cao hơn, đặc biệt là để phát hiện các đối tượng nhỏ hoặc chồng chéo, nhưng phải trả giá bằng thời gian tính toán tăng đáng kể và tốc độ suy luận thấp hơn.
Ngược lại, các máy dò một giai đoạn hợp nhất các bước này, thực hiện định vị và phân loại đồng thời trên toàn bộ hình ảnh trong một lần. Phương pháp tiếp cận thống nhất này mang lại tốc độ tăng đáng kể. Theo truyền thống, lợi thế về tốc độ này đôi khi liên quan đến sự đánh đổi, có khả năng dẫn đến độ chính xác thấp hơn một chút so với các phương pháp hai giai đoạn hiện đại, đặc biệt là về độ chính xác định vị. Tuy nhiên, những tiến bộ trong thiết kế kiến trúc, hàm mất mát và các chiến lược đào tạo đã cho phép các máy dò một giai đoạn hiện đại như YOLO11 thu hẹp đáng kể khoảng cách hiệu suất này, cung cấp các so sánh hấp dẫn trên nhiều chuẩn mực khác nhau. Hiệu suất thường được đánh giá bằng các số liệu như Độ chính xác trung bình trung bình (mAP) và Giao điểm trên hợp nhất (IoU) .
Tốc độ và hiệu quả của các máy dò vật thể một giai đoạn khiến chúng trở nên vô cùng hữu ích trong nhiều tình huống thực tế đòi hỏi phải ra quyết định và xử lý nhanh chóng:
Phát triển và triển khai các bộ phát hiện đối tượng một giai đoạn liên quan đến việc sử dụng nhiều công cụ và nền tảng khác nhau. Các khuôn khổ học sâu như PyTorch và TensorFlow cung cấp các thư viện cốt lõi. Các thư viện thị giác máy tính như OpenCV cung cấp các chức năng xử lý hình ảnh thiết yếu. Ultralytics cung cấp các mô hình Ultralytics YOLO tiên tiến và nền tảng Ultralytics HUB , giúp đơn giản hóa việc đào tạo các mô hình tùy chỉnh trên các tập dữ liệu như COCO hoặc dữ liệu của riêng bạn, quản lý các thử nghiệm và triển khai các mô hình một cách hiệu quả. Đào tạo mô hình hiệu quả thường đòi hỏi phải điều chỉnh siêu tham số cẩn thận và các chiến lược như tăng cường dữ liệu để cải thiện tính mạnh mẽ và khái quát hóa. Các mô hình có thể được xuất sang các định dạng như ONNX để triển khai trên nhiều nền tảng phần cứng khác nhau, bao gồm các thiết bị biên .