Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Các kiến trúc phát hiện đối tượng là bản thiết kế nền tảng cho các mô hình học sâu (deep learning) thực hiện phát hiện đối tượng (object detection). Tác vụ thị giác máy tính (CV) này bao gồm xác định sự hiện diện và vị trí của các đối tượng trong một hình ảnh hoặc video, thường bằng cách vẽ một khung giới hạn (bounding box) xung quanh chúng và gán nhãn lớp. Kiến trúc xác định cấu trúc của mô hình, bao gồm cách nó xử lý thông tin trực quan và đưa ra dự đoán. Việc lựa chọn kiến trúc là rất quan trọng vì nó ảnh hưởng trực tiếp đến tốc độ, độ chính xác và yêu cầu tính toán của mô hình.

Cách thức hoạt động của các kiến trúc phát hiện đối tượng (Object Detection)

Hầu hết các kiến trúc phát hiện đối tượng hiện đại bao gồm ba thành phần chính hoạt động tuần tự:

  • Backbone: Đây là một mạng nơ-ron tích chập (CNN), thường được huấn luyện trước trên một bộ dữ liệu phân loại hình ảnh lớn như ImageNet. Vai trò chính của nó là hoạt động như một bộ trích xuất đặc trưng, chuyển đổi hình ảnh đầu vào thành một loạt bản đồ đặc trưng nắm bắt thông tin trực quan phân cấp. Các mạng backbone phổ biến bao gồm ResNet và CSPDarknet, được sử dụng trong nhiều mô hình YOLO. Bạn có thể tìm hiểu thêm về các nguyên tắc cơ bản của CNN từ các nguồn như tổng quan chi tiết của IBM.
  • Neck (Cổ): Thành phần tùy chọn này nằm giữa backbone (xương sống) và head (đầu). Nó có chức năng tổng hợp và tinh chỉnh các feature map (bản đồ đặc trưng) được tạo ra bởi backbone, thường kết hợp các đặc trưng từ các tỷ lệ khác nhau để cải thiện khả năng phát hiện các đối tượng có kích thước khác nhau. Ví dụ: Feature Pyramid Networks (FPNs).
  • Đầu dò (Detection Head): Đầu dò là thành phần cuối cùng chịu trách nhiệm đưa ra các dự đoán. Nó lấy các bản đồ đặc trưng đã được xử lý từ cổ (neck) (hoặc trực tiếp từ xương sống (backbone)) và xuất ra xác suất lớp và tọa độ hộp giới hạn cho mỗi đối tượng được phát hiện.

Các loại kiến trúc

Các kiến trúc phát hiện đối tượng thường được phân loại dựa trên phương pháp dự đoán, dẫn đến sự đánh đổi giữa tốc độ và độ chính xác. Bạn có thể khám phá chi tiết so sánh các mô hình để thấy rõ những sự đánh đổi này.

Các Ứng dụng Thực tế

Kiến trúc phát hiện đối tượng cung cấp sức mạnh cho vô số ứng dụng AI trong nhiều lĩnh vực khác nhau:

Công Cụ và Công nghệ

Phát triển và triển khai các mô hình dựa trên các kiến trúc này thường liên quan đến các công cụ và framework chuyên dụng:

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard