Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá các kiến ​​trúc phát hiện đối tượng, từ khung xương đến đầu thu. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 mang lại tốc độ và độ chính xác vượt trội cho thị giác máy tính thời gian thực.

Kiến trúc phát hiện đối tượng là bản thiết kế cấu trúc của các mạng nơ-ron được sử dụng để xác định và định vị các đối tượng trong dữ liệu hình ảnh. Trong lĩnh vực thị giác máy tính (CV) rộng hơn, các kiến ​​trúc này định nghĩa cách máy "nhìn" bằng cách xử lý dữ liệu pixel thô thành những thông tin có ý nghĩa. Không giống như các mô hình phân loại cơ bản chỉ đơn giản là gắn nhãn cho hình ảnh, kiến ​​trúc phát hiện đối tượng được thiết kế để xuất ra một hộp giới hạn cùng với nhãn lớp và điểm tin cậy cho mỗi đối tượng riêng biệt mà nó tìm thấy. Thiết kế cấu trúc này quyết định tốc độ, độ chính xác và hiệu quả tính toán của mô hình, khiến nó trở thành yếu tố quan trọng khi lựa chọn mô hình cho suy luận thời gian thực hoặc phân tích độ chính xác cao.

Các thành phần cốt lõi của một kiến ​​trúc

Mặc dù thiết kế cụ thể có thể khác nhau, hầu hết các kiến ​​trúc hiện đại đều có ba thành phần cơ bản: xương sống, cổ và đầu. Xương sống đóng vai trò là bộ trích xuất đặc trưng chính. Nó thường là một Mạng nơ-ron tích chập (CNN) được huấn luyện trước trên một tập dữ liệu lớn như ImageNet , chịu trách nhiệm xác định các hình dạng, cạnh và kết cấu cơ bản. Các lựa chọn phổ biến cho xương sống bao gồm ResNet và CSPDarknet.

Cổ nối các lớp xương sống với các lớp đầu ra cuối cùng. Vai trò của nó là trộn và kết hợp các đặc điểm từ các giai đoạn khác nhau của xương sống để đảm bảo mô hình có thể hoạt động trơn tru. detect Các đối tượng có kích thước khác nhau—một khái niệm được gọi là kết hợp đặc trưng đa tỷ lệ. Các kiến ​​trúc thường sử dụng Mạng Kim tự tháp Đặc trưng (FPN) hoặc Mạng Tổng hợp Đường dẫn (PANet) để làm phong phú thông tin ngữ nghĩa được truyền đến các lớp dự đoán. Cuối cùng, bộ phận phát hiện xử lý các đặc trưng được kết hợp này để dự đoán lớp cụ thể và vị trí tọa độ của từng đối tượng.

Tiến hóa: Hai giai đoạn so với một giai đoạn

Về mặt lịch sử, các kiến ​​trúc được chia thành hai loại chính. Các bộ dò hai giai đoạn , chẳng hạn như họ R-CNN , trước tiên đề xuất các vùng quan tâm (RoI) nơi các đối tượng có thể tồn tại và sau đó classify những vùng đó trong bước thứ hai. Mặc dù nhìn chung chính xác, nhưng chúng thường quá tốn tài nguyên tính toán đối với các thiết bị biên.

Ngược lại, các bộ dò một giai đoạn xử lý việc phát hiện như một bài toán hồi quy đơn giản, ánh xạ trực tiếp các điểm ảnh đến tọa độ hộp giới hạn và xác suất lớp trong một lần xử lý duy nhất. Phương pháp này, được tiên phong bởi... YOLO Dòng sản phẩm (You Only Look Once) đã cách mạng hóa ngành công nghiệp bằng cách cho phép hiệu suất thời gian thực. Những tiến bộ hiện đại đã dẫn đến các mẫu như YOLO26 , không chỉ cung cấp tốc độ vượt trội mà còn áp dụng công nghệ đầu cuối. NMS - Kiến trúc không cần xử lý hậu kỳ (Non-Maximum Suppression - NMS ) . Bằng cách loại bỏ nhu cầu xử lý hậu kỳ NMS, các kiến ​​trúc mới này giảm thiểu sự biến động độ trễ, điều rất quan trọng đối với các hệ thống an toàn критична.

Các Ứng dụng Thực tế

Việc lựa chọn kiến ​​trúc có tác động trực tiếp đến sự thành công của các giải pháp trí tuệ nhân tạo trong nhiều ngành công nghiệp.

  • Tự động hóa bán lẻ: Trong các siêu thị thông minh , kiến ​​trúc một bước hiệu quả cho phép hệ thống thanh toán tự động nhận diện sản phẩm ngay lập tức trên băng chuyền hoặc trong xe đẩy hàng, giảm thời gian chờ đợi và lỗi do con người.
  • Chẩn đoán y khoa: Kiến trúc độ chính xác cao được sử dụng trong phân tích hình ảnh y khoa để detect Các bất thường như khối u trong ảnh chụp X-quang hoặc MRI. Trong trường hợp này, khả năng giữ lại các chi tiết nhỏ của kiến ​​trúc quan trọng hơn tốc độ xử lý thô.

Phân biệt các thuật ngữ liên quan

Điều quan trọng là phải phân biệt các kiến ​​trúc phát hiện với các nhiệm vụ thị giác máy tính tương tự:

  • So với phân loại ảnh: Kiến trúc phân loại ảnh (như VGG hoặc EfficientNet) gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "mèo"). Nó không cho bạn biết con mèo ở đâu hoặc liệu có nhiều con mèo hay không, đó là chức năng chính của các kiến ​​trúc phát hiện.
  • So với Phân đoạn đối tượng: Trong khi phát hiện chỉ đặt một khung xung quanh đối tượng, phân đoạn đối tượng xác định đường viền (mặt nạ) chính xác đến từng pixel của mỗi đối tượng. Kiến trúc phân đoạn thường là phần mở rộng của kiến ​​trúc phát hiện (ví dụ: thêm nhánh mặt nạ vào đầu phát hiện).

Thực hiện với Ultralytics

Các framework hiện đại đã đơn giản hóa sự phức tạp của các kiến ​​trúc này, cho phép các nhà phát triển tận dụng các thiết kế tiên tiến nhất với lượng mã tối thiểu. Sử dụng ultralytics Bạn có thể tải gói đã được huấn luyện sẵn, sau đó tải lên một mô hình đã được huấn luyện trước. YOLO26 Mô hình và chạy suy luận ngay lập tức. Đối với các nhóm muốn quản lý tập dữ liệu và huấn luyện các kiến ​​trúc tùy chỉnh trên đám mây, giải pháp này... Ultralytics Nền tảng Đơn giản hóa toàn bộ quy trình MLOps.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay