Khám phá tốc độ và hiệu quả của các máy dò vật thể một giai đoạn như YOLO, lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.
Bộ phát hiện vật thể một giai đoạn là một lớp mô hình học sâu được thiết kế để đạt được tốc độ và hiệu quả trong thị giác máy tính . Chúng thực hiện định vị và phân loại vật thể trong một lần duyệt thống nhất của mạng nơ-ron. Điều này trái ngược với các đối tác phức tạp hơn của chúng, bộ phát hiện vật thể hai giai đoạn , chia nhiệm vụ thành hai bước riêng biệt. Bằng cách xử lý việc phát hiện vật thể như một bài toán hồi quy đơn giản, các mô hình một giai đoạn dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ các đặc điểm hình ảnh, khiến chúng cực kỳ nhanh và phù hợp cho các ứng dụng yêu cầu suy luận thời gian thực .
Bộ phát hiện một giai đoạn xử lý toàn bộ hình ảnh cùng một lúc thông qua một mạng nơ-ron tích chập (CNN) duy nhất. Kiến trúc của mạng được thiết kế để thực hiện nhiều tác vụ cùng lúc. Đầu tiên, xương sống của mạng thực hiện trích xuất đặc điểm , tạo ra các biểu diễn phong phú của hình ảnh đầu vào ở nhiều tỷ lệ khác nhau. Các đặc điểm này sau đó được đưa vào một đầu phát hiện chuyên dụng.
Đầu này chịu trách nhiệm dự đoán một tập hợp các hộp giới hạn , một điểm tin cậy cho mỗi hộp biểu thị sự hiện diện của một đối tượng, và xác suất mỗi đối tượng thuộc về một lớp cụ thể. Toàn bộ quá trình này diễn ra trong một lần duyệt tiến duy nhất, đây là chìa khóa cho tốc độ cao của chúng. Các kỹ thuật như triệt tiêu không tối đa (NMS) sau đó được sử dụng để lọc ra các phát hiện trùng lặp và chồng chéo để tạo ra kết quả cuối cùng. Các mô hình được huấn luyện bằng một hàm mất mát chuyên biệt kết hợp mất mát định vị (độ chính xác của hộp giới hạn) và mất mát phân loại (độ chính xác của dự đoán lớp).
Sự khác biệt chính nằm ở phương pháp luận. Máy dò một tầng được chế tạo chú trọng vào tốc độ và sự đơn giản, trong khi máy dò hai tầng ưu tiên độ chính xác, mặc dù sự khác biệt này đang dần trở nên ít rõ rệt hơn với các mẫu máy mới hơn.
Một số kiến trúc một giai đoạn có ảnh hưởng đã được phát triển, mỗi kiến trúc có những đóng góp riêng:
Tốc độ và hiệu quả của các máy dò một giai đoạn đã khiến chúng trở nên không thể thiếu trong nhiều ứng dụng do AI điều khiển:
Ưu điểm chính của bộ phát hiện một giai đoạn là tốc độ đáng kinh ngạc, cho phép phát hiện đối tượng theo thời gian thực trên nhiều loại phần cứng, bao gồm các thiết bị AI biên công suất thấp như NVIDIA Jetson hoặc Raspberry Pi . Kiến trúc đầu cuối đơn giản hơn của chúng cũng giúp việc đào tạo và triển khai dễ dàng hơn bằng các nền tảng như PyTorch hoặc TensorFlow .
Trước đây, hạn chế chính là độ chính xác thấp hơn so với máy dò hai giai đoạn, đặc biệt là khi xử lý các vật thể rất nhỏ hoặc bị che khuất nhiều. Tuy nhiên, những tiến bộ gần đây về kiến trúc mô hình và kỹ thuật huấn luyện, như đã thấy trong các mô hình như YOLO11 , đã thu hẹp đáng kể khoảng cách hiệu suất này, mang đến sự kết hợp mạnh mẽ giữa tốc độ và độ chính xác cao cho nhiều tác vụ thị giác máy tính . Các nền tảng như Ultralytics HUB giúp đơn giản hóa hơn nữa quy trình huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể.