Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Các Bộ Phát Hiện Đối Tượng Một Giai Đoạn

Khám phá tốc độ và hiệu quả của các bộ dò tìm đối tượng một giai đoạn như YOLO, lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.

Các bộ phát hiện đối tượng một giai đoạn là một lớp các mô hình học sâu được thiết kế để có tốc độ và hiệu quả trong thị giác máy tính. Chúng thực hiện bản địa hóa và phân loại đối tượng trong một lần truyền hợp nhất duy nhất của mạng nơ-ron. Điều này trái ngược với các đối tác phức tạp hơn của chúng, bộ phát hiện đối tượng hai giai đoạn, chia nhiệm vụ thành hai bước riêng biệt. Bằng cách coi phát hiện đối tượng là một bài toán hồi quy đơn giản, các mô hình một giai đoạn dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ các đặc trưng hình ảnh, làm cho chúng cực kỳ nhanh và phù hợp cho các ứng dụng yêu cầu suy luận thời gian thực.

Cách thức hoạt động của các Detector một giai đoạn (One-Stage Detectors)

Mô hình phát hiện một giai đoạn xử lý toàn bộ hình ảnh cùng một lúc thông qua một mạng nơ-ron tích chập (CNN) duy nhất. Kiến trúc của mạng được thiết kế để thực hiện đồng thời một số tác vụ. Đầu tiên, backbone của mạng thực hiện trích xuất đặc trưng, tạo ra các biểu diễn phong phú của hình ảnh đầu vào ở nhiều tỷ lệ khác nhau. Các đặc trưng này sau đó được đưa vào một đầu dò tìm chuyên dụng.

Phần head này chịu trách nhiệm dự đoán một tập hợp các hộp giới hạn, điểm tin cậy cho mỗi hộp cho biết sự hiện diện của một đối tượng và xác suất của mỗi đối tượng thuộc về một lớp cụ thể. Toàn bộ quá trình này diễn ra trong một lần truyền xuôi duy nhất, đây là chìa khóa cho tốc độ cao của chúng. Các kỹ thuật như non-maximum suppression (NMS) sau đó được sử dụng để lọc ra các phát hiện dư thừa và chồng chéo để tạo ra đầu ra cuối cùng. Các mô hình được huấn luyện bằng cách sử dụng hàm mất mát chuyên dụng kết hợp mất mát vị trí (mức độ chính xác của hộp giới hạn) và mất mát phân loại (mức độ chính xác của dự đoán lớp).

So Sánh Với Các Mô Hình Phát Hiện Đối Tượng Hai Giai Đoạn

Sự khác biệt chính nằm ở phương pháp luận. Các detector một giai đoạn được xây dựng để có tốc độ và sự đơn giản, trong khi các detector hai giai đoạn ưu tiên độ chính xác, mặc dù sự khác biệt này đang trở nên ít rõ rệt hơn với các mô hình mới hơn.

  • Các detector một giai đoạn: Các mô hình này, chẳng hạn như họ YOLO (You Only Look Once), thực hiện phát hiện trong một bước duy nhất. Chúng thường nhanh hơn và có kiến trúc đơn giản hơn, làm cho chúng lý tưởng cho các thiết bị biên và các ứng dụng thời gian thực. Sự phát triển của các detector không neo đã cải thiện hơn nữa hiệu suất và tính đơn giản của chúng.
  • Các bộ phát hiện đối tượng hai giai đoạn: Các mô hình như chuỗi R-CNN và các biến thể nhanh hơn của nó trước tiên tạo ra một tập hợp thưa thớt các đề xuất vùng nơi các đối tượng có thể được định vị. Trong giai đoạn thứ hai, một mạng riêng biệt phân loại các đề xuất này và tinh chỉnh tọa độ hộp giới hạn. Quá trình hai bước này thường mang lại độ chính xác cao hơn, đặc biệt là đối với các đối tượng nhỏ, nhưng phải trả giá bằng tốc độ suy luận chậm hơn đáng kể. Mask R-CNN là một ví dụ nổi tiếng mở rộng phương pháp này để phân đoạn thể hiện.

Các Kiến trúc và Mô hình Chính

Một số kiến trúc one-stage (một giai đoạn) có ảnh hưởng đã được phát triển, mỗi kiến trúc có những đóng góp riêng:

  • YOLO (You Only Look Once): Được giới thiệu trong một bài báo đột phá năm 2015, YOLO đã định hình việc phát hiện đối tượng như một bài toán hồi quy duy nhất. Các phiên bản tiếp theo, bao gồm YOLOv8Ultralytics YOLO11 hiện đại, đã liên tục cải thiện sự cân bằng giữa tốc độ và độ chính xác.
  • Single Shot MultiBox Detector (SSD): Kiến trúc SSD là một mô hình một giai đoạn tiên phong khác sử dụng các bản đồ đặc trưng đa tỷ lệ để phát hiện các đối tượng có kích thước khác nhau, cải thiện độ chính xác so với YOLO ban đầu.
  • RetinaNet: Mô hình này giới thiệu Focal Loss, một hàm mất mát mới được thiết kế để giải quyết tình trạng mất cân bằng lớp nghiêm trọng gặp phải trong quá trình huấn luyện các trình dò tìm dày đặc, cho phép nó vượt qua độ chính xác của nhiều trình dò tìm hai giai đoạn vào thời điểm đó.
  • EfficientDet: Một họ các mô hình được phát triển bởi Google Research, tập trung vào khả năng mở rộng và hiệu quả bằng cách sử dụng phương pháp mở rộng hợp chất và mạng đặc trưng BiFPN mới lạ. Bạn có thể xem nó so sánh với các mô hình khác như thế nào YOLO11 so với EfficientDet.

Các Ứng dụng Thực tế

Tốc độ và hiệu quả của các one-stage detector (mô hình phát hiện một giai đoạn) đã khiến chúng trở nên không thể thiếu trong nhiều ứng dụng do AI điều khiển:

  1. Xe tự hành: Trong AI cho xe tự lái, các bộ phát hiện một giai đoạn (one-stage detector) rất quan trọng để nhận biết môi trường trong thời gian thực. Chúng có thể ngay lập tức xác định và theo dõi người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông, cho phép hệ thống điều hướng của xe đưa ra các quyết định quan trọng trong tích tắc. Các công ty như Tesla sử dụng các nguyên tắc tương tự cho hệ thống Autopilot của họ.
  2. An ninh và giám sát thông minh: Các mô hình một giai đoạn cung cấp năng lượng cho các hệ thống an ninh hiện đại bằng cách phân tích các nguồn cấp video để phát hiện các mối đe dọa như xâm nhập trái phép hoặc hoạt động đáng ngờ. Ví dụ: một hệ thống có thể được đào tạo để đếm số người trong hàng đợi để quản lý hàng đợi hoặc xác định hành lý bị bỏ quên trong sân bay, tất cả đều theo thời gian thực.

Ưu điểm và Hạn chế

Ưu điểm chính của các detector một giai đoạn là tốc độ đáng kinh ngạc của chúng, cho phép phát hiện đối tượng theo thời gian thực trên nhiều loại phần cứng, bao gồm các thiết bị AI biên công suất thấp như NVIDIA Jetson hoặc Raspberry Pi. Kiến trúc end-to-end đơn giản hơn của chúng cũng giúp chúng dễ dàng huấn luyện và triển khai hơn bằng cách sử dụng các framework như PyTorch hoặc TensorFlow.

Trong lịch sử, hạn chế chính là độ chính xác thấp hơn so với các detector hai giai đoạn, đặc biệt khi xử lý các đối tượng rất nhỏ hoặc bị che khuất nhiều. Tuy nhiên, những tiến bộ gần đây trong kiến trúc mô hình và kỹ thuật huấn luyện, như được thấy trong các mô hình như YOLO11, đã thu hẹp đáng kể khoảng cách hiệu suất này, mang lại sự kết hợp mạnh mẽ giữa tốc độ và độ chính xác cao cho một loạt các tác vụ thị giác máy tính. Các nền tảng như Ultralytics HUB giúp đơn giản hóa hơn nữa quy trình huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard