Khám phá tốc độ và hiệu quả của các bộ dò tìm đối tượng một giai đoạn như YOLO, lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.
Các bộ phát hiện đối tượng một giai đoạn là một lớp các mô hình học sâu được thiết kế để có tốc độ và hiệu quả trong thị giác máy tính. Chúng thực hiện bản địa hóa và phân loại đối tượng trong một lần truyền hợp nhất duy nhất của mạng nơ-ron. Điều này trái ngược với các đối tác phức tạp hơn của chúng, bộ phát hiện đối tượng hai giai đoạn, chia nhiệm vụ thành hai bước riêng biệt. Bằng cách coi phát hiện đối tượng là một bài toán hồi quy đơn giản, các mô hình một giai đoạn dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ các đặc trưng hình ảnh, làm cho chúng cực kỳ nhanh và phù hợp cho các ứng dụng yêu cầu suy luận thời gian thực.
Mô hình phát hiện một giai đoạn xử lý toàn bộ hình ảnh cùng một lúc thông qua một mạng nơ-ron tích chập (CNN) duy nhất. Kiến trúc của mạng được thiết kế để thực hiện đồng thời một số tác vụ. Đầu tiên, backbone của mạng thực hiện trích xuất đặc trưng, tạo ra các biểu diễn phong phú của hình ảnh đầu vào ở nhiều tỷ lệ khác nhau. Các đặc trưng này sau đó được đưa vào một đầu dò tìm chuyên dụng.
Phần head này chịu trách nhiệm dự đoán một tập hợp các hộp giới hạn, điểm tin cậy cho mỗi hộp cho biết sự hiện diện của một đối tượng và xác suất của mỗi đối tượng thuộc về một lớp cụ thể. Toàn bộ quá trình này diễn ra trong một lần truyền xuôi duy nhất, đây là chìa khóa cho tốc độ cao của chúng. Các kỹ thuật như non-maximum suppression (NMS) sau đó được sử dụng để lọc ra các phát hiện dư thừa và chồng chéo để tạo ra đầu ra cuối cùng. Các mô hình được huấn luyện bằng cách sử dụng hàm mất mát chuyên dụng kết hợp mất mát vị trí (mức độ chính xác của hộp giới hạn) và mất mát phân loại (mức độ chính xác của dự đoán lớp).
Sự khác biệt chính nằm ở phương pháp luận. Các detector một giai đoạn được xây dựng để có tốc độ và sự đơn giản, trong khi các detector hai giai đoạn ưu tiên độ chính xác, mặc dù sự khác biệt này đang trở nên ít rõ rệt hơn với các mô hình mới hơn.
Một số kiến trúc one-stage (một giai đoạn) có ảnh hưởng đã được phát triển, mỗi kiến trúc có những đóng góp riêng:
Tốc độ và hiệu quả của các one-stage detector (mô hình phát hiện một giai đoạn) đã khiến chúng trở nên không thể thiếu trong nhiều ứng dụng do AI điều khiển:
Ưu điểm chính của các detector một giai đoạn là tốc độ đáng kinh ngạc của chúng, cho phép phát hiện đối tượng theo thời gian thực trên nhiều loại phần cứng, bao gồm các thiết bị AI biên công suất thấp như NVIDIA Jetson hoặc Raspberry Pi. Kiến trúc end-to-end đơn giản hơn của chúng cũng giúp chúng dễ dàng huấn luyện và triển khai hơn bằng cách sử dụng các framework như PyTorch hoặc TensorFlow.
Trong lịch sử, hạn chế chính là độ chính xác thấp hơn so với các detector hai giai đoạn, đặc biệt khi xử lý các đối tượng rất nhỏ hoặc bị che khuất nhiều. Tuy nhiên, những tiến bộ gần đây trong kiến trúc mô hình và kỹ thuật huấn luyện, như được thấy trong các mô hình như YOLO11, đã thu hẹp đáng kể khoảng cách hiệu suất này, mang lại sự kết hợp mạnh mẽ giữa tốc độ và độ chính xác cao cho một loạt các tác vụ thị giác máy tính. Các nền tảng như Ultralytics HUB giúp đơn giản hóa hơn nữa quy trình huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể.