Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Kiến trúc phát hiện đối tượng đóng vai trò là khuôn khổ cấu trúc cho các mô hình học sâu được thiết kế để định vị và nhận dạng các mục riêng biệt trong dữ liệu trực quan. Không giống như phân loại hình ảnh tiêu chuẩn, vốn chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh, các kiến trúc này cho phép máy móc nhận dạng nhiều thực thể, xác định vị trí chính xác của chúng bằng một hộp giới hạn và gán một nhãn lớp cụ thể cho từng thực thể. Kiến trúc này thực sự quyết định cách mạng nơ-ron xử lý dữ liệu điểm ảnh thành những thông tin chi tiết có ý nghĩa, ảnh hưởng trực tiếp đến độ chính xác , tốc độ và hiệu quả tính toán của mô hình.

Các thành phần chính của kiến trúc phát hiện

Hầu hết các hệ thống phát hiện hiện đại đều dựa trên thiết kế mô-đun gồm ba giai đoạn chính. Việc hiểu rõ các thành phần này giúp các nhà nghiên cứu và kỹ sư lựa chọn công cụ phù hợp cho các nhiệm vụ từ phân tích hình ảnh y tế đến tự động hóa công nghiệp.

  • Xương sống: Đây là phần đầu tiên của mạng, chịu trách nhiệm trích xuất đặc điểm. Nó thường là Mạng Nơ-ron Tích chập (CNN) xử lý ảnh thô để xác định các mẫu như cạnh, kết cấu và hình dạng. Các xương sống phổ biến bao gồm Mạng Dư (Residual Networks - ResNet) và Mạng Phân đoạn Chéo Giai đoạn (CSP) được sử dụng trong YOLO mô hình. Để hiểu sâu hơn về trích xuất tính năng, bạn có thể xem lại ghi chú CS231n của Đại học Stanford .
  • Cổ: Nằm giữa xương sống và đầu, cổ tổng hợp các bản đồ đặc trưng từ các giai đoạn khác nhau. Điều này cho phép mô hình detect các đối tượng ở nhiều tỷ lệ khác nhau (nhỏ, trung bình và lớn). Một kỹ thuật phổ biến được sử dụng ở đây là Mạng Kim tự tháp Đặc trưng (FPN) , tạo ra biểu diễn đa tỷ lệ của hình ảnh.
  • Đầu phát hiện: Thành phần cuối cùng là đầu phát hiện , tạo ra các dự đoán cuối cùng. Nó đưa ra tọa độ cụ thể cho các hộp giới hạn và điểm tin cậy cho từng lớp.

Các loại kiến trúc

Kiến trúc thường được phân loại theo cách xử lý, thường thể hiện sự đánh đổi giữa tốc độ suy luận và độ chính xác phát hiện.

Máy dò một giai đoạn so với máy dò hai giai đoạn

  • Máy dò Đối tượng Hai Giai đoạn : Các mô hình này, chẳng hạn như họ R-CNN, hoạt động theo hai bước riêng biệt: đầu tiên là tạo ra các đề xuất vùng (các khu vực có thể tồn tại một đối tượng) và sau đó phân loại các vùng đó. Mặc dù trước đây được biết đến với độ chính xác cao, nhưng chúng đòi hỏi nhiều tính toán. Bạn có thể đọc bài báo gốc Faster R-CNN để hiểu nguồn gốc của phương pháp này.
  • Bộ phát hiện đối tượng một giai đoạn : Các kiến trúc như dòng Ultralytics YOLO xử lý việc phát hiện như một bài toán hồi quy đơn, dự đoán các hộp giới hạn và xác suất lớp trực tiếp từ hình ảnh chỉ trong một lần chạy. Cấu trúc này cho phép suy luận theo thời gian thực , lý tưởng cho các luồng video và thiết bị biên.

Dựa trên neo so với không neo

Các kiến trúc cũ thường dựa vào các hộp neo — các hình dạng được xác định trước mà mô hình cố gắng điều chỉnh để phù hợp với các đối tượng. Tuy nhiên, các bộ phát hiện không neo hiện đại, chẳng hạn như YOLO11 , đã loại bỏ việc điều chỉnh siêu tham số thủ công này. Điều này dẫn đến một quy trình đào tạo được đơn giản hóa và khả năng khái quát hóa được cải thiện. Nhìn về tương lai, các dự án R&D sắp tới như YOLO26 sẽ hướng đến việc tinh chỉnh hơn nữa các khái niệm không neo này, hướng đến các kiến trúc đầu cuối nguyên bản để đạt hiệu quả cao hơn nữa.

Các Ứng dụng Thực tế

Tính linh hoạt của kiến trúc phát hiện đối tượng thúc đẩy sự đổi mới trong nhiều lĩnh vực:

  • Xe tự hành : Xe tự lái sử dụng kiến trúc tốc độ cao để detect Người đi bộ, biển báo giao thông và các phương tiện khác theo thời gian thực. Các công ty như Waymo tận dụng các hệ thống thị giác tiên tiến này để điều hướng an toàn trong môi trường đô thị phức tạp.
  • Phân tích bán lẻ: Trong lĩnh vực bán lẻ, các kiến trúc được triển khai cho các siêu thị thông minh để quản lý hàng tồn kho và phân tích hành vi khách hàng. Bằng cách theo dõi sự di chuyển của sản phẩm trên kệ, các cửa hàng có thể tự động hóa quy trình bổ sung hàng.
  • Nông nghiệp chính xác: Nông dân sử dụng các mô hình AI này trong nông nghiệp để xác định bệnh cây trồng hoặc thực hiện phát hiện cỏ dại tự động, giúp giảm đáng kể việc sử dụng hóa chất.

Triển khai phát hiện đối tượng

Sử dụng kiến trúc hiện đại như YOLO11 là thẳng thắn với cấp độ cao Python API. Ví dụ sau đây minh họa cách tải một mô hình được đào tạo trước và thực hiện suy luận trên một hình ảnh.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

Đối với những người quan tâm đến việc so sánh cách các lựa chọn kiến trúc khác nhau tác động đến hiệu suất, bạn có thể khám phá các so sánh mô hình chi tiết để xem điểm chuẩn giữa YOLO11 và các hệ thống khác như RT-DETR . Ngoài ra, việc hiểu các số liệu như Giao điểm trên Liên kết ( IoU ) rất quan trọng để đánh giá mức độ hoàn thành nhiệm vụ của một kiến trúc.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay