Thuật ngữ

Máy dò vật thể một giai đoạn

Khám phá tốc độ và hiệu quả của các máy dò vật thể một giai đoạn như YOLO, lý tưởng cho các ứng dụng thời gian thực như robot và giám sát.

Bộ phát hiện vật thể một giai đoạn là một lớp mô hình học sâu được thiết kế để đạt được tốc độ và hiệu quả trong thị giác máy tính . Chúng thực hiện định vị và phân loại vật thể trong một lần duyệt thống nhất của mạng nơ-ron. Điều này trái ngược với các đối tác phức tạp hơn của chúng, bộ phát hiện vật thể hai giai đoạn , chia nhiệm vụ thành hai bước riêng biệt. Bằng cách xử lý việc phát hiện vật thể như một bài toán hồi quy đơn giản, các mô hình một giai đoạn dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ các đặc điểm hình ảnh, khiến chúng cực kỳ nhanh và phù hợp cho các ứng dụng yêu cầu suy luận thời gian thực .

Cách thức hoạt động của máy dò một giai đoạn

Bộ phát hiện một giai đoạn xử lý toàn bộ hình ảnh cùng một lúc thông qua một mạng nơ-ron tích chập (CNN) duy nhất. Kiến trúc của mạng được thiết kế để thực hiện nhiều tác vụ cùng lúc. Đầu tiên, xương sống của mạng thực hiện trích xuất đặc điểm , tạo ra các biểu diễn phong phú của hình ảnh đầu vào ở nhiều tỷ lệ khác nhau. Các đặc điểm này sau đó được đưa vào một đầu phát hiện chuyên dụng.

Đầu này chịu trách nhiệm dự đoán một tập hợp các hộp giới hạn , một điểm tin cậy cho mỗi hộp biểu thị sự hiện diện của một đối tượng, và xác suất mỗi đối tượng thuộc về một lớp cụ thể. Toàn bộ quá trình này diễn ra trong một lần duyệt tiến duy nhất, đây là chìa khóa cho tốc độ cao của chúng. Các kỹ thuật như triệt tiêu không tối đa (NMS) sau đó được sử dụng để lọc ra các phát hiện trùng lặp và chồng chéo để tạo ra kết quả cuối cùng. Các mô hình được huấn luyện bằng một hàm mất mát chuyên biệt kết hợp mất mát định vị (độ chính xác của hộp giới hạn) và mất mát phân loại (độ chính xác của dự đoán lớp).

So sánh với máy dò vật thể hai giai đoạn

Sự khác biệt chính nằm ở phương pháp luận. Máy dò một tầng được chế tạo chú trọng vào tốc độ và sự đơn giản, trong khi máy dò hai tầng ưu tiên độ chính xác, mặc dù sự khác biệt này đang dần trở nên ít rõ rệt hơn với các mẫu máy mới hơn.

  • Máy dò một giai đoạn : Các mẫu máy này, chẳng hạn như dòng YOLO (You Only Look Once) , thực hiện phát hiện chỉ trong một bước. Chúng thường nhanh hơn và có kiến trúc đơn giản hơn, lý tưởng cho các thiết bị biên và ứng dụng thời gian thực. Sự phát triển của máy dò không cần neo đã cải thiện hơn nữa hiệu suất và tính đơn giản của chúng.
  • Bộ phát hiện đối tượng hai giai đoạn : Các mô hình như dòng R-CNN và các biến thể nhanh hơn của nó trước tiên tạo ra một tập hợp thưa thớt các đề xuất vùng nơi các đối tượng có thể được định vị. Ở giai đoạn thứ hai, một mạng riêng biệt sẽ phân loại các đề xuất này và tinh chỉnh tọa độ hộp giới hạn. Quy trình hai bước này thường mang lại độ chính xác cao hơn, đặc biệt là đối với các đối tượng nhỏ, nhưng phải trả giá bằng tốc độ suy luận chậm hơn đáng kể. Mask R-CNN là một ví dụ nổi tiếng mở rộng phương pháp này sang phân đoạn thực thể .

Kiến trúc và mô hình chính

Một số kiến trúc một giai đoạn có ảnh hưởng đã được phát triển, mỗi kiến trúc có những đóng góp riêng:

  • YOLO (You Only Look Once) : Được giới thiệu trong một bài báo đột phá năm 2015 , YOLO định hình việc phát hiện đối tượng như một bài toán hồi quy đơn. Các phiên bản tiếp theo, bao gồm YOLOv8YOLO11 tiên tiến của Ultralytics , đã liên tục cải thiện sự cân bằng giữa tốc độ và độ chính xác.
  • Bộ dò MultiBox đơn (SSD) : Kiến trúc SSD là một mô hình một giai đoạn tiên phong khác sử dụng bản đồ đặc trưng đa tỷ lệ để phát hiện các đối tượng có nhiều kích cỡ khác nhau, cải thiện độ chính xác so với YOLO ban đầu.
  • RetinaNet : Mô hình này giới thiệu Focal Loss, một hàm mất mát mới được thiết kế để giải quyết tình trạng mất cân bằng lớp cực độ gặp phải trong quá trình đào tạo các máy dò dày đặc, cho phép nó vượt qua độ chính xác của nhiều máy dò hai giai đoạn tại thời điểm đó.
  • EfficientDet : Một nhóm mô hình do Google Research phát triển, tập trung vào khả năng mở rộng và hiệu quả bằng cách sử dụng phương pháp mở rộng hợp chất và mạng tính năng BiFPN mới. Bạn có thể xem cách so sánh nó với các mô hình khác như YOLO11 và EfficientDet .

Ứng dụng trong thế giới thực

Tốc độ và hiệu quả của các máy dò một giai đoạn đã khiến chúng trở nên không thể thiếu trong nhiều ứng dụng do AI điều khiển:

  1. Xe tự hành : Trong AI dành cho xe tự lái , các cảm biến một giai đoạn đóng vai trò quan trọng trong việc nhận biết môi trường theo thời gian thực. Chúng có thể nhận dạng và theo dõi ngay lập tức người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông, cho phép hệ thống dẫn đường của xe đưa ra quyết định quan trọng chỉ trong tích tắc. Các công ty như Tesla cũng áp dụng các nguyên lý tương tự cho hệ thống Autopilot của họ.
  2. An ninh và Giám sát Thông minh : Các mô hình một giai đoạn hỗ trợ hệ thống an ninh hiện đại bằng cách phân tích dữ liệu video để phát hiện các mối đe dọa như xâm nhập trái phép hoặc hoạt động đáng ngờ. Ví dụ, hệ thống có thể được đào tạo để đếm số người trong hàng đợi để quản lý hàng đợi hoặc xác định hành lý bị bỏ lại tại sân bay, tất cả đều theo thời gian thực.

Ưu điểm và Hạn chế

Ưu điểm chính của bộ phát hiện một giai đoạn là tốc độ đáng kinh ngạc, cho phép phát hiện đối tượng theo thời gian thực trên nhiều loại phần cứng, bao gồm các thiết bị AI biên công suất thấp như NVIDIA Jetson hoặc Raspberry Pi . Kiến trúc đầu cuối đơn giản hơn của chúng cũng giúp việc đào tạo và triển khai dễ dàng hơn bằng các nền tảng như PyTorch hoặc TensorFlow .

Trước đây, hạn chế chính là độ chính xác thấp hơn so với máy dò hai giai đoạn, đặc biệt là khi xử lý các vật thể rất nhỏ hoặc bị che khuất nhiều. Tuy nhiên, những tiến bộ gần đây về kiến trúc mô hình và kỹ thuật huấn luyện, như đã thấy trong các mô hình như YOLO11 , đã thu hẹp đáng kể khoảng cách hiệu suất này, mang đến sự kết hợp mạnh mẽ giữa tốc độ và độ chính xác cao cho nhiều tác vụ thị giác máy tính . Các nền tảng như Ultralytics HUB giúp đơn giản hóa hơn nữa quy trình huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard