Thuật ngữ

Máy dò vật thể hai giai đoạn

Khám phá sức mạnh của máy dò vật thể hai giai đoạn—giải pháp tập trung vào độ chính xác để phát hiện vật thể chính xác trong các tác vụ thị giác máy tính phức tạp.

Bộ phát hiện đối tượng hai giai đoạn là một lớp mô hình thị giác máy tính có khả năng nhận dạng và định vị các đối tượng trong hình ảnh hoặc video thông qua một quy trình tuần tự hai bước. Phương pháp này được biết đến với độ chính xác cao, đặc biệt là trong việc định vị chính xác các đối tượng, mặc dù nó thường đi kèm với độ trễ suy luận cao hơn. Ý tưởng cơ bản là trước tiên xác định các khu vực quan tâm tiềm năng, sau đó thực hiện phân loại và định vị chi tiết chỉ trên những khu vực hứa hẹn đó.

Quá trình hai giai đoạn

Hoạt động của máy dò hai giai đoạn được chia thành các giai đoạn tuần tự riêng biệt:

  1. Tạo Đề xuất Vùng: Trong giai đoạn đầu tiên, mô hình quét ảnh để tạo ra một tập hợp các vùng ứng viên, được gọi là "vùng quan tâm" (RoI) hoặc đề xuất, có khả năng chứa một đối tượng. Điều này thường được thực hiện bởi một mô-đun con gọi là Mạng Đề xuất Vùng (RPN), như đã được giới thiệu trong kiến trúc Faster R-CNN . Mục tiêu của giai đoạn này không phải là phân loại các đối tượng mà chỉ đơn giản là giảm số lượng vị trí mà giai đoạn thứ hai cần phân tích.

  2. Phân loại Đối tượng và Tinh chỉnh Hộp Giới hạn: Ở giai đoạn thứ hai, mỗi vùng đề xuất được chuyển đến một đầu phân loại và một đầu hồi quy. Đầu phân loại xác định lớp của đối tượng trong RoI (ví dụ: "người", "xe", "chó") hoặc chỉ định nó làm nền. Đồng thời, đầu hồi quy tinh chỉnh tọa độ của hộp giới hạn để phù hợp với đối tượng chính xác hơn. Việc phân tích tập trung các vùng được chọn trước này cho phép mô hình đạt được độ chính xác định vị cao.

Máy dò hai giai đoạn so với máy dò một giai đoạn

Sự khác biệt chính nằm ở quy trình hoạt động của chúng. Máy dò hai giai đoạn tách biệt nhiệm vụ định vị và phân loại, trong khi máy dò vật thể một giai đoạn thực hiện cả hai nhiệm vụ cùng lúc chỉ trong một lần quét.

  • Bộ dò hai giai đoạn (ví dụ: họ R-CNN): Ưu tiên độ chính xác. Quy trình hai bước cho phép trích xuất và tinh chỉnh đặc điểm chi tiết hơn cho từng đối tượng tiềm năng, mang lại hiệu suất tốt hơn trên các cảnh phức tạp với nhiều đối tượng nhỏ hoặc chồng chéo. Tuy nhiên, độ phức tạp của chúng khiến chúng tốn nhiều tài nguyên tính toán và chậm hơn.
  • Bộ phát hiện một giai đoạn (ví dụ: Ultralytics YOLO , SSD): Ưu tiên tốc độ và hiệu quả. Bằng cách xử lý phát hiện đối tượng như một bài toán hồi quy đơn lẻ, chúng đạt được tốc độ suy luận thời gian thực phù hợp cho các ứng dụng trên thiết bị AI biên . Mặc dù các mô hình một giai đoạn hiện đại như YOLO11 đã thu hẹp đáng kể khoảng cách về độ chính xác, bộ phát hiện hai giai đoạn vẫn có thể được ưu tiên cho các tác vụ đòi hỏi độ chính xác cao nhất có thể.

Kiến trúc nổi bật

Sự phát triển của máy dò hai giai đoạn được đánh dấu bằng một số mô hình có ảnh hưởng:

  • R-CNN (Mạng nơ-ron tích chập dựa trên vùng): Mô hình tiên phong đầu tiên đề xuất sử dụng đề xuất vùng với mạng nơ-ron tích chập (CNN) . Mô hình này sử dụng một thuật toán bên ngoài gọi là Tìm kiếm Chọn lọc để tạo ra các đề xuất.
  • Fast R-CNN: Một cải tiến xử lý toàn bộ hình ảnh thông qua CNN một lần, chia sẻ tính toán và tăng tốc quá trình đáng kể.
  • Faster R-CNN: Giới thiệu Mạng đề xuất khu vực (RPN), tích hợp cơ chế đề xuất khu vực vào chính mạng nơ-ron để tạo ra giải pháp học sâu toàn diện.
  • Mask R-CNN : Mở rộng Faster R-CNN bằng cách thêm nhánh thứ ba tạo ra mặt nạ cấp độ pixel cho từng đối tượng, cho phép phân đoạn phiên bản .

Ứng dụng trong thế giới thực

Độ chính xác cao của máy dò hai giai đoạn làm cho chúng trở nên có giá trị trong các tình huống mà độ chính xác là tối quan trọng:

  • Phân tích hình ảnh y tế : Việc phát hiện các bất thường nhỏ như khối u nhỏ, tổn thương hoặc polyp trong các lần chụp cắt lớp (CT, MRI) đòi hỏi độ chính xác cao để hỗ trợ chẩn đoán. Định vị chính xác là rất quan trọng cho việc lập kế hoạch điều trị. Xem thêm về AI trong chăm sóc sức khỏe và nghiên cứu trên các tạp chí như Radiology: Artificial Intelligence . Bạn có thể khám phá các tập dữ liệu như tập dữ liệu Brain Tumor cho các nhiệm vụ liên quan.
  • Lái xe tự động : Việc phát hiện và định vị chính xác người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông, đặc biệt là những biển báo nhỏ hoặc bị che khuất một phần, là rất quan trọng đối với hệ thống an toàn của xe tự lái . Các công ty như Waymo rất tin tưởng vào các hệ thống nhận dạng mạnh mẽ.
  • Hiểu biết chi tiết về bối cảnh: Các ứng dụng yêu cầu hiểu biết sâu sắc về tương tác đối tượng hoặc đếm chính xác sẽ được hưởng lợi từ độ chính xác cao hơn.
  • Kiểm soát chất lượng trong sản xuất: Xác định các lỗi nhỏ hoặc xác minh vị trí lắp ráp linh kiện trong các cụm phức tạp thường đòi hỏi độ chính xác cao. Tìm hiểu thêm về AI trong sản xuất .

Việc đào tạo các mô hình này thường liên quan đến các tập dữ liệu có nhãn lớn, chẳng hạn như tập dữ liệu COCO và điều chỉnh cẩn thận. Ultralytics cung cấp các nguồn lực để đào tạo mô hình và hiểu các số liệu hiệu suất . Trong khi Ultralytics tập trung vào các mô hình một giai đoạn hiệu quả như Ultralytics YOLO, việc hiểu các máy dò hai giai đoạn cung cấp bối cảnh có giá trị trong lĩnh vực phát hiện đối tượng rộng hơn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard