Các Detector Đối Tượng Hai Giai Đoạn
Khám phá sức mạnh của các bộ dò tìm đối tượng hai giai đoạn – giải pháp tập trung vào độ chính xác để dò tìm đối tượng chính xác trong các tác vụ thị giác máy tính phức tạp.
Các bộ dò tìm đối tượng hai giai đoạn là một lớp các mô hình thị giác máy tính xác định và định vị các đối tượng trong ảnh hoặc video thông qua một quy trình tuần tự, hai bước. Phương pháp này được biết đến với độ chính xác cao, đặc biệt là trong việc định vị các đối tượng một cách chính xác, mặc dù nó thường phải trả giá bằng độ trễ suy luận cao hơn. Ý tưởng cơ bản là trước tiên xác định các khu vực tiềm năng được quan tâm và sau đó thực hiện phân loại và định vị chi tiết chỉ trên các khu vực đầy hứa hẹn đó.
Quy trình hai giai đoạn
Hoạt động của một detector hai giai đoạn được chia thành các giai đoạn riêng biệt, tuần tự:
Tạo Đề Xuất Vùng (Region Proposal Generation): Ở giai đoạn đầu tiên, mô hình quét ảnh để tạo ra một tập hợp các vùng ứng viên, được gọi là "vùng quan tâm" (RoIs) hoặc đề xuất, có khả năng chứa một đối tượng. Điều này thường được thực hiện bởi một mô-đun con gọi là Mạng Đề Xuất Vùng (Region Proposal Network - RPN), như được giới thiệu nổi tiếng trong kiến trúc Faster R-CNN. Mục tiêu của giai đoạn này không phải là phân loại các đối tượng mà chỉ đơn giản là giảm số lượng vị trí mà giai đoạn thứ hai cần phân tích.
Phân loại đối tượng và tinh chỉnh hộp giới hạn: Ở giai đoạn thứ hai, mỗi vùng được đề xuất sẽ được chuyển đến một nhánh phân loại và một nhánh hồi quy. Nhánh phân loại xác định lớp của đối tượng trong RoI (ví dụ: "người", "xe hơi", "chó") hoặc chỉ định nó là nền. Đồng thời, nhánh hồi quy tinh chỉnh tọa độ của hộp giới hạn để khớp với đối tượng chính xác hơn. Phân tích tập trung vào các vùng được chọn trước này cho phép mô hình đạt được độ chính xác định vị cao.
Bộ dò tìm hai giai đoạn so với một giai đoạn
Sự khác biệt chính nằm ở quy trình hoạt động của chúng. Các detector hai giai đoạn tách biệt các nhiệm vụ bản địa hóa và phân loại, trong khi các detector đối tượng một giai đoạn thực hiện cả hai nhiệm vụ đồng thời trong một lần truyền.
- Các bộ phát hiện hai giai đoạn (ví dụ: họ R-CNN): Ưu tiên độ chính xác. Quy trình hai bước cho phép trích xuất và tinh chỉnh các đặc trưng chi tiết hơn cho mỗi đối tượng tiềm năng, điều này dẫn đến hiệu suất tốt hơn trên các cảnh phức tạp với nhiều đối tượng nhỏ hoặc chồng chéo. Tuy nhiên, độ phức tạp của chúng làm cho chúng tốn nhiều tài nguyên tính toán và chậm hơn.
- Các detector một giai đoạn (ví dụ: Ultralytics YOLO, SSD): Ưu tiên tốc độ và hiệu quả. Bằng cách coi phát hiện đối tượng như một bài toán hồi quy đơn lẻ, chúng đạt được tốc độ suy luận thời gian thực phù hợp cho các ứng dụng trên các thiết bị AI biên. Mặc dù các mô hình một giai đoạn hiện đại như YOLO11 đã thu hẹp đáng kể khoảng cách về độ chính xác, nhưng các detector hai giai đoạn vẫn có thể được ưu tiên cho các tác vụ đòi hỏi độ chính xác cao nhất có thể.
Các kiến trúc nổi bật
Sự phát triển của các detector hai giai đoạn được đánh dấu bởi một số mô hình có ảnh hưởng:
- R-CNN (Mạng nơ-ron tích chập dựa trên vùng): Mô hình tiên phong đầu tiên đề xuất sử dụng các đề xuất vùng với mạng nơ-ron tích chập (CNN). Nó sử dụng một thuật toán bên ngoài gọi là Selective Search để tạo ra các đề xuất.
- Fast R-CNN: Một cải tiến xử lý toàn bộ hình ảnh thông qua CNN một lần, chia sẻ tính toán và tăng tốc đáng kể quá trình.
- Faster R-CNN: Giới thiệu Mạng Đề Xuất Vùng (RPN), tích hợp cơ chế đề xuất vùng vào chính mạng nơ-ron để tạo ra một giải pháp học sâu end-to-end.
- Mask R-CNN: Mở rộng Faster R-CNN bằng cách thêm một nhánh thứ ba xuất ra mặt nạ mức pixel cho mỗi đối tượng, cho phép phân vùng thể hiện (instance segmentation).
Các Ứng dụng Thực tế
Độ chính xác cao của các detector hai giai đoạn làm cho chúng có giá trị trong các tình huống mà độ chính xác là tối quan trọng:
- Phân tích hình ảnh y tế: Phát hiện các bất thường nhỏ như khối u nhỏ, tổn thương hoặc polyp trong ảnh chụp y tế (CT, MRI) đòi hỏi độ chính xác cao để hỗ trợ chẩn đoán. Định vị chính xác là rất quan trọng để lập kế hoạch điều trị. Xem thêm về AI trong chăm sóc sức khỏe và nghiên cứu trên các tạp chí như Radiology: Artificial Intelligence. Bạn có thể khám phá các tập dữ liệu như tập dữ liệu Brain Tumor cho các tác vụ liên quan.
- Lái xe tự hành: Phát hiện và định vị chính xác người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông, đặc biệt là những biển báo nhỏ hoặc bị che khuất một phần, là rất quan trọng đối với các hệ thống an toàn của xe tự lái. Các công ty như Waymo dựa rất nhiều vào các hệ thống nhận thức mạnh mẽ.
- Hiểu chi tiết về cảnh: Các ứng dụng yêu cầu hiểu chi tiết về các tương tác đối tượng hoặc đếm chính xác sẽ được hưởng lợi từ độ chính xác cao hơn.
- Kiểm soát chất lượng trong sản xuất: Việc xác định các lỗi nhỏ hoặc xác minh vị trí của các thành phần trong các cụm lắp ráp phức tạp thường đòi hỏi độ chính xác cao. Tìm hiểu thêm về ứng dụng AI trong sản xuất.
Việc huấn luyện các mô hình này thường bao gồm các bộ dữ liệu lớn đã được gắn nhãn, chẳng hạn như bộ dữ liệu COCO, và quá trình điều chỉnh cẩn thận. Ultralytics cung cấp các tài nguyên để huấn luyện mô hình và hiểu các chỉ số hiệu suất. Mặc dù Ultralytics tập trung vào các mô hình một giai đoạn hiệu quả như Ultralytics YOLO, nhưng việc hiểu các bộ dò tìm hai giai đoạn cung cấp bối cảnh có giá trị trong lĩnh vực phát hiện đối tượng rộng lớn hơn.