Thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Kiến trúc phát hiện đối tượng là bản thiết kế nền tảng cho các mô hình học sâu thực hiện phát hiện đối tượng . Nhiệm vụ thị giác máy tính (CV) này bao gồm việc xác định sự hiện diện và vị trí của các đối tượng trong hình ảnh hoặc video, thường bằng cách vẽ một khung giới hạn xung quanh chúng và gán nhãn lớp. Kiến trúc xác định cấu trúc của mô hình, bao gồm cách nó xử lý thông tin hình ảnh và đưa ra dự đoán. Việc lựa chọn kiến trúc rất quan trọng vì nó ảnh hưởng trực tiếp đến tốc độ, độ chính xác và yêu cầu tính toán của mô hình.

Kiến trúc phát hiện đối tượng hoạt động như thế nào

Hầu hết các kiến trúc phát hiện đối tượng hiện đại đều bao gồm ba thành phần chính hoạt động theo trình tự:

  • Backbone : Đây là một mạng nơ-ron tích chập (CNN) , thường được đào tạo trước trên một tập dữ liệu phân loại hình ảnh lớn như ImageNet . Vai trò chính của nó là hoạt động như một bộ trích xuất đặc trưng, chuyển đổi hình ảnh đầu vào thành một chuỗi các bản đồ đặc trưng để thu thập thông tin hình ảnh phân cấp. Các mạng xương sống phổ biến bao gồm ResNet và CSPDarknet, được sử dụng trong nhiều mô hình YOLO. Bạn có thể tìm hiểu thêm về các nguyên tắc cơ bản của CNN từ các nguồn như tổng quan chi tiết của IBM .
  • Cổ: Thành phần tùy chọn này nằm giữa xương sống và đầu. Nó có chức năng tổng hợp và tinh chỉnh các bản đồ đặc trưng do xương sống tạo ra, thường kết hợp các đặc trưng từ các tỷ lệ khác nhau để cải thiện khả năng phát hiện các đối tượng có kích thước khác nhau. Ví dụ bao gồm Mạng Kim tự tháp Đặc trưng (FPN).
  • Đầu phát hiện : Đầu là thành phần cuối cùng chịu trách nhiệm đưa ra dự đoán. Nó lấy bản đồ đặc trưng đã xử lý từ phần cổ (hoặc trực tiếp từ xương sống) và xuất ra xác suất lớp và tọa độ hộp giới hạn cho mỗi đối tượng được phát hiện.

Các loại kiến trúc

Kiến trúc phát hiện đối tượng được phân loại rộng rãi dựa trên cách tiếp cận dự đoán, dẫn đến sự đánh đổi giữa tốc độ và độ chính xác. Bạn có thể khám phá các so sánh mô hình chi tiết để xem những đánh đổi này hoạt động như thế nào.

  • Bộ phát hiện đối tượng hai giai đoạn : Các mô hình này, chẳng hạn như họ R-CNN, trước tiên xác định một tập hợp các vùng đối tượng ứng viên (đề xuất vùng) và sau đó phân loại từng vùng. Quy trình hai bước này có thể đạt được độ chính xác cao nhưng thường chậm hơn.
  • Bộ phát hiện đối tượng một giai đoạn : Các kiến trúc như dòng Ultralytics YOLO (You Only Look Once - Bạn chỉ nhìn một lần) xử lý việc phát hiện đối tượng như một bài toán hồi quy đơn. Chúng dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ toàn bộ hình ảnh chỉ trong một lần chạy, cho phép suy luận theo thời gian thực .
  • Bộ dò không neo : Một bước tiến gần đây hơn trong các bộ dò một giai đoạn, kiến trúc không neo như Ultralytics YOLO11 loại bỏ nhu cầu sử dụng hộp neo được xác định trước. Điều này giúp đơn giản hóa quá trình đào tạo và thường dẫn đến các mô hình nhanh hơn, hiệu quả hơn.

Ứng dụng trong thế giới thực

Kiến trúc phát hiện đối tượng hỗ trợ nhiều ứng dụng AI trên nhiều lĩnh vực khác nhau:

Công cụ và công nghệ

Việc phát triển và triển khai các mô hình dựa trên các kiến trúc này thường liên quan đến các công cụ và khuôn khổ chuyên dụng:

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard