Two-Stage Object Detectors
Khám phá cơ chế của các bộ phát hiện đối tượng hai giai đoạn (two-stage object detectors), tập trung vào các đề xuất vùng và phân loại. Tìm hiểu lý do tại sao các mô hình hiện đại như Ultralytics YOLO26 hiện đang dẫn đầu.
Trình phát hiện đối tượng hai giai đoạn là một lớp kiến trúc học sâu (DL) tinh vi được sử dụng trong thị giác máy tính để nhận diện và định vị các đối tượng trong một hình ảnh. Khác với các trình phát hiện một giai đoạn thực hiện việc phát hiện chỉ trong một lần truyền qua, các model này chia tác vụ thành hai giai đoạn riêng biệt: đề xuất vùng và phân loại đối tượng. Cách tiếp cận phân tách này được tiên phong để ưu tiên độ chính xác định vị cao, khiến các trình phát hiện này có ý nghĩa lịch sử trong sự phát triển của trí tuệ nhân tạo (AI). Bằng cách tách biệt "nơi nào" (where) khỏi "cái gì" (what), các trình phát hiện hai giai đoạn thường đạt được độ chính xác vượt trội, đặc biệt là trên các đối tượng nhỏ hoặc bị che khuất, mặc dù điều này thường phải đánh đổi bằng việc tiêu tốn nhiều tài nguyên tính toán hơn và độ trễ suy luận chậm hơn.
Link to this sectionQuy trình hai giai đoạn#
Kiến trúc của một trình phát hiện hai giai đoạn dựa trên quy trình làm việc tuần tự, mô phỏng cách con người có thể quan sát kỹ lưỡng một khung cảnh.
-
Đề xuất vùng (Region Proposal): Trong giai đoạn đầu, model quét hình ảnh đầu vào để xác định các khu vực tiềm năng nơi đối tượng có thể tồn tại. Một thành phần được gọi là Region Proposal Network (RPN) tạo ra một tập hợp thưa thớt các khung ứng viên, thường được gọi là Regions of Interest (RoIs). Giai đoạn này lọc bỏ phần lớn nền, cho phép mạng tập trung sức mạnh xử lý vào các khu vực liên quan.
-
Phân loại và tinh chỉnh: Trong giai đoạn thứ hai, model trích xuất các đặc trưng từ những vùng ứng viên này bằng cách sử dụng Convolutional Neural Networks (CNNs). Sau đó, nó gán nhãn lớp cụ thể (ví dụ: "người", "phương tiện") cho mỗi vùng và tinh chỉnh tọa độ của bounding box để bao quanh đối tượng một cách chặt chẽ.
Các ví dụ nổi bật của kiến trúc này bao gồm họ R-CNN, cụ thể là Faster R-CNN và Mask R-CNN, vốn đã thiết lập tiêu chuẩn cho các tiêu chuẩn học thuật trong nhiều năm.
Link to this sectionSo sánh với các trình phát hiện một giai đoạn#
Việc phân biệt giữa các model hai giai đoạn và trình phát hiện đối tượng một giai đoạn như Single Shot MultiBox Detector (SSD) và dòng Ultralytics YOLO là rất hữu ích. Trong khi các model hai giai đoạn ưu tiên độ chính xác bằng cách xử lý các vùng riêng biệt, thì các model một giai đoạn xây dựng bài toán phát hiện thành một bài toán hồi quy duy nhất, ánh xạ trực tiếp các pixel hình ảnh tới tọa độ bounding box và xác suất lớp.
Trong lịch sử, điều này tạo ra một sự đánh đổi: các model hai giai đoạn chính xác hơn nhưng chậm hơn, trong khi các model một giai đoạn nhanh hơn nhưng ít chính xác hơn. Tuy nhiên, những tiến bộ hiện đại đã làm mờ ranh giới này. Các model tiên tiến như YOLO26 hiện sử dụng các kiến trúc end-to-end cạnh tranh với độ chính xác của các trình phát hiện hai giai đoạn trong khi vẫn duy trì tốc độ cần thiết cho suy luận thời gian thực.
Link to this sectionCác ứng dụng trong thực tế#
Do sự chú trọng vào độ chính xác và độ hồi tưởng (recall), các trình phát hiện hai giai đoạn thường được ưu tiên trong các kịch bản mà an toàn và độ chi tiết quan trọng hơn tốc độ xử lý thô.
- Chẩn đoán hình ảnh y tế: Trong lĩnh vực AI trong chăm sóc sức khỏe, việc bỏ sót chẩn đoán có thể gây hậu quả nghiêm trọng. Các kiến trúc hai giai đoạn thường được sử dụng trong phân tích hình ảnh y tế để phát hiện các bất thường như khối u trong ảnh X-quang hoặc quét MRI. Quy trình đa bước giúp đảm bảo rằng các tổn thương nhỏ không bị bỏ sót trước các phông nền mô phức tạp, cung cấp cho bác sĩ chẩn đoán hình ảnh sự hỗ trợ tự động có độ tin cậy cao.
- Kiểm tra công nghiệp độ chính xác cao: Trong sản xuất thông minh, các hệ thống kiểm tra thị giác tự động sử dụng các model này để xác định các khuyết tật hiển vi trên dây chuyền lắp ráp. Ví dụ, việc phát hiện một vết nứt nhỏ trên cánh tuabin đòi hỏi độ chính xác Intersection over Union (IoU) cao mà các trình phát hiện hai giai đoạn cung cấp, đảm bảo rằng chỉ những linh kiện hoàn hảo mới được chuyển sang giai đoạn sản xuất tiếp theo.
Link to this sectionTriển khai phát hiện hiện đại#
Trong khi các trình phát hiện hai giai đoạn đã đặt nền móng cho thị giác máy tính độ chính xác cao, các nhà phát triển hiện đại thường sử dụng các model một giai đoạn tiên tiến cung cấp hiệu suất tương đương với quy trình triển khai dễ dàng hơn đáng kể. Ultralytics Platform đơn giản hóa việc huấn luyện và triển khai các model này, quản lý các tập dữ liệu và tài nguyên tính toán một cách hiệu quả.
Ví dụ Python sau đây minh họa cách tải và chạy suy luận sử dụng quy trình phát hiện đối tượng hiện đại với ultralytics, đạt được kết quả độ chính xác cao tương tự như các phương pháp hai giai đoạn truyền thống nhưng với hiệu suất lớn hơn:
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores





