Các Detector Đối Tượng Hai Giai Đoạn
Khám phá sức mạnh của các bộ dò tìm đối tượng hai giai đoạn – giải pháp tập trung vào độ chính xác để dò tìm đối tượng chính xác trong các tác vụ thị giác máy tính phức tạp.
Máy dò vật thể hai giai đoạn là một lớp mô hình học sâu tinh vi được thiết kế để nhận dạng và định vị vật thể trong ảnh với độ chính xác cao. Không giống như các đối tác nhanh hơn, các kiến trúc này chia nhiệm vụ phát hiện vật thể thành hai giai đoạn riêng biệt: xác định các vùng tiềm năng nơi vật thể có thể tồn tại, sau đó phân loại các vùng đó trong khi tinh chỉnh tọa độ của chúng. Phương pháp phân tách quy trình này trước đây đã biến máy dò hai giai đoạn trở thành tiêu chuẩn vàng cho các tác vụ đòi hỏi độ chính xác tối quan trọng, thường phải đánh đổi bằng tốc độ và tài nguyên tính toán.
Quy trình làm việc hai giai đoạn
Kiến trúc của bộ phát hiện hai giai đoạn hoạt động giống như một cái phễu, thu hẹp dữ liệu từ một hình ảnh rộng thành các đối tượng cụ thể, được phân loại. Quá trình này thường bao gồm một mạng xương sống , chẳng hạn như ResNet, để trích xuất các đặc điểm, tiếp theo là hai giai đoạn quan trọng:
-
Đề xuất Khu vực: Giai đoạn đầu tiên sử dụng một thành phần thường được gọi là Mạng Đề xuất Khu vực (RPN). Mạng này quét các bản đồ đặc trưng do mạng xương sống tạo ra để xác định "Khu vực Quan tâm" (RoI). Tại thời điểm này, mô hình không phân loại đối tượng; về cơ bản, nó hoạt động như một bộ lọc nền, đánh dấu các khu vực có khả năng chứa thông tin so với các khu vực trống. Khái niệm này đã được củng cố trong bài nghiên cứu quan trọng về Faster R-CNN .
-
Phân loại và Tinh chỉnh: Ở giai đoạn thứ hai, các vùng đề xuất được gộp lại thành một kích thước cố định và đưa vào một đầu phát hiện cụ thể. Đầu này thực hiện hai nhiệm vụ đồng thời: gán nhãn lớp cụ thể (ví dụ: "người", "phương tiện") cho đối tượng và sử dụng hồi quy hộp giới hạn để điều chỉnh tọa độ, đảm bảo hộp vừa khít với đối tượng.
Bộ dò tìm hai giai đoạn so với một giai đoạn
Hiểu được sự khác biệt giữa máy dò vật thể hai giai đoạn và một giai đoạn là điều cơ bản để lựa chọn đúng mẫu cho ứng dụng.
-
Bộ phát hiện hai giai đoạn (ví dụ: Faster R-CNN, Mask R-CNN): Các mô hình này ưu tiên độ chính xác. Bằng cách tách biệt đề xuất và phân loại, chúng xử lý rất tốt các cảnh phức tạp với các đối tượng chồng chéo hoặc các chi tiết nhỏ. Tuy nhiên, cơ chế kiểm tra kép này làm tăng độ trễ suy luận , khiến chúng khó triển khai trong các môi trường đòi hỏi phản hồi ngay lập tức.
-
Bộ phát hiện một giai đoạn (ví dụ: YOLO , SSD): Các kiến trúc như dòng Ultralytics YOLO xử lý việc phát hiện như một bài toán hồi quy đơn. Chúng ánh xạ các pixel ảnh trực tiếp đến tọa độ hộp giới hạn và xác suất lớp chỉ trong một lần chạy. Mặc dù trước đây kém chính xác hơn các mô hình hai giai đoạn, các phiên bản hiện đại như YOLO11 đã thu hẹp đáng kể khoảng cách về độ chính xác trong khi vẫn duy trì tốc độ suy luận theo thời gian thực .
Kiến trúc chính trong lịch sử
Một số kiến trúc đã định nghĩa sự phát triển của phát hiện hai giai đoạn:
Các Ứng dụng Thực tế
Vì máy dò hai giai đoạn có khả năng định vị các vật thể nhỏ và giảm thiểu các kết quả dương tính giả nên chúng vẫn đóng vai trò quan trọng trong một số ngành công nghiệp cụ thể.
-
Phân tích hình ảnh y tế : Trong X-quang, việc xác định các nốt hoặc khối u nhỏ trên CT đòi hỏi độ nhạy cao nhất có thể. Mô hình hai giai đoạn thường được sử dụng ở đây để giảm thiểu nguy cơ bỏ sót chẩn đoán quan trọng, như đã được trình bày chi tiết trong nhiều nghiên cứu về AI trong chăm sóc sức khỏe .
-
Kiểm tra Chất lượng Tự động : Trong sản xuất, việc xác định các khuyết tật cực nhỏ trên bảng mạch hoặc các bộ phận gia công đòi hỏi phân tích độ phân giải cao. Khả năng định vị chính xác của máy dò hai giai đoạn giúp phát hiện các khuyết tật mà các mô hình nhanh hơn, ít chi tiết hơn có thể bỏ sót.
Triển khai phát hiện độ chính xác cao
Trong khi Ultralytics chuyên về các mô hình một giai đoạn hiện đại, các phiên bản hiện đại như YOLO11 cung cấp độ chính xác cao thường thấy ở các máy dò hai giai đoạn nhưng có tốc độ đào tạo và suy luận mô hình nhanh hơn đáng kể.
Sau đây là cách triển khai một hệ thống được đào tạo trước YOLO11 mô hình sử dụng ultralytics gói để đạt được kết quả phát hiện có độ chính xác cao:
from ultralytics import YOLO
# Load a high-accuracy pre-trained YOLO11 model (Large variant)
# 'yolo11l.pt' offers a balance of high accuracy comparable to older two-stage models
model = YOLO("yolo11l.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Display the results with bounding boxes
results[0].show()
Các Khái Niệm Liên Quan
-
Hộp neo : Hình dạng hộp được xác định trước được nhiều máy dò hai giai đoạn sử dụng để ước tính kích thước đối tượng và tỷ lệ khung hình trong giai đoạn đề xuất.
-
Khử nhiễu không tối đa ( NMS ) : Một kỹ thuật xử lý hậu kỳ được sử dụng trong cả máy dò một giai đoạn và hai giai đoạn để loại bỏ các hộp chồng chéo dư thừa, đảm bảo chỉ còn lại kết quả phát hiện đáng tin cậy nhất.
-
Giao điểm trên Union ( IoU ) : Một số liệu được sử dụng để đo sự chồng lấn giữa hộp dự đoán và thực tế, cần thiết cho việc đào tạo RPN và các đầu tinh chỉnh.