Khám phá tốc độ và hiệu quả của các máy dò vật thể một giai đoạn như YOLO , lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.
Bộ phát hiện đối tượng một giai đoạn là một loại mô hình học sâu (DL) được tối ưu hóa về tốc độ và hiệu quả trong các tác vụ thị giác máy tính (CV) . Không giống như bộ phát hiện đối tượng hai giai đoạn , vốn tách quá trình phát hiện thành các giai đoạn đề xuất vùng và phân loại, kiến trúc một giai đoạn thực hiện phát hiện đối tượng chỉ trong một lần đánh giá. Bằng cách định hình tác vụ như một bài toán hồi quy trực tiếp, các mô hình này dự đoán đồng thời các hộp giới hạn và xác suất lớp từ ảnh đầu vào. Phương pháp tiếp cận hợp lý này cho phép xử lý nhanh hơn đáng kể, khiến chúng trở thành lựa chọn ưu tiên cho các ứng dụng yêu cầu suy luận thời gian thực .
Cốt lõi của bộ phát hiện một giai đoạn là mạng nơ-ron tích chập (CNN) , đóng vai trò là xương sống cho việc trích xuất đặc điểm . Mạng này xử lý toàn bộ hình ảnh cùng một lúc—do đó có tên gọi "Bạn chỉ nhìn một lần"—tạo ra một lưới các bản đồ đặc điểm. Các kiến trúc ban đầu, chẳng hạn như Bộ phát hiện Đa hộp Single Shot (SSD) , dựa vào các hộp neo được xác định trước để xử lý các đối tượng ở nhiều tỷ lệ khác nhau. Tuy nhiên, các phiên bản hiện đại như Ultralytics YOLO11 phần lớn đã áp dụng các thiết kế không neo để giảm độ phức tạp và cải thiện khả năng khái quát hóa. Đầu ra thường bao gồm tọa độ để định vị và điểm số tin cậy cho biết khả năng hiện diện của đối tượng.
Sự khác biệt chính giữa mô hình một giai đoạn và hai giai đoạn nằm ở sự đánh đổi giữa tốc độ và độ chính xác. Các kiến trúc hai giai đoạn, chẳng hạn như họ R-CNN , thường mang lại độ chính xác cao hơn cho các đối tượng nhỏ hoặc bị che khuất nhưng lại phát sinh chi phí tính toán cao hơn do quy trình nhiều bước của chúng. Ngược lại, các bộ phát hiện một giai đoạn ưu tiên độ trễ suy luận thấp, cho phép triển khai trên phần cứng hạn chế về tài nguyên. Những tiến bộ gần đây, bao gồm sự phát triển của YOLOv1 thành YOLO26 sắp ra mắt (dự kiến vào cuối năm 2025), sử dụng huấn luyện đầu cuối và các hàm mất mát nâng cao để thu hẹp khoảng cách về độ chính xác, thường tương đương hoặc vượt trội hơn các mô hình hai giai đoạn.
Hiệu quả của máy dò một giai đoạn thúc đẩy sự đổi mới trong nhiều lĩnh vực mà khả năng phản ứng tức thời là rất quan trọng:
Để đảm bảo kết quả chính xác, các mô hình này thường dự đoán nhiều hộp tiềm năng cho một đối tượng duy nhất. Các kỹ thuật hậu xử lý như NMS (Non-Maximum Suppression) sẽ lọc các dự đoán dư thừa này dựa trên ngưỡng Giao nhau trên Hợp nhất ( IoU ) . Việc triển khai bộ phát hiện một giai đoạn rất đơn giản với các thư viện hiện đại như PyTorch và gói Python Ultralytics .
Ví dụ sau đây minh họa cách chạy suy luận bằng cách sử dụng một YOLO11 người mẫu:
from ultralytics import YOLO
# Load the YOLO11 model, a state-of-the-art one-stage detector
model = YOLO("yolo11n.pt")
# Run inference on a local image or URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects with bounding boxes
results[0].show()