Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Backbone (Mạng xương sống)

Khám phá vai trò của backbone trong deep learning, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT, và ứng dụng AI thực tế của chúng.

Xương sống là thành phần cốt lõi của mô hình học sâu , đặc biệt là trong thị giác máy tính (CV) . Nó hoạt động như một mạng lưới trích xuất đặc trưng chính, được thiết kế để lấy dữ liệu đầu vào thô như hình ảnh và chuyển đổi nó thành một tập hợp các đặc trưng cấp cao. Các bản đồ đặc trưng này nắm bắt các mẫu thiết yếu như cạnh, kết cấu và hình dạng. Biểu diễn phong phú này sau đó được sử dụng bởi các phần tiếp theo của mạng để thực hiện các tác vụ như phát hiện đối tượng , phân đoạn ảnh hoặc phân loại ảnh . Xương sống là nền tảng của mạng nơ-ron (NN) học cách "nhìn" các yếu tố thị giác cơ bản trong ảnh.

Cách Backbones hoạt động

Thông thường, xương sống là một Mạng nơ-ron tích chập (CNN) sâu đã được đào tạo trước trên một tập dữ liệu phân loại quy mô lớn, chẳng hạn như ImageNet . Quá trình đào tạo trước này, một hình thức học chuyển giao , cho phép mạng học một thư viện lớn các đặc điểm hình ảnh chung. Khi phát triển một mô hình cho một tác vụ mới, cụ thể, các nhà phát triển thường sử dụng một xương sống được đào tạo trước thay vì bắt đầu từ đầu. Cách tiếp cận này rút ngắn đáng kể thời gian cần thiết để đào tạo các mô hình tùy chỉnh và giảm yêu cầu dữ liệu, thường dẫn đến hiệu suất tốt hơn. Các đặc điểm được xương sống trích xuất sau đó được chuyển đến "cổ" và "đầu" của mạng, thực hiện tinh chỉnh thêm và tạo ra đầu ra cuối cùng. Việc lựa chọn xương sống thường là sự đánh đổi giữa độ chính xác, kích thước mô hình và độ trễ suy luận , một yếu tố quan trọng để đạt được hiệu suất thời gian thực .

Đoạn mã sau đây minh họa cách mô hình Ultralytics YOLO11 được đào tạo trước, chứa xương sống hiệu quả, có thể được tải và sử dụng để suy luận trên hình ảnh.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Các kiến trúc Backbone phổ biến

Thiết kế xương sống đã có những bước tiến đáng kể, với mỗi kiến trúc mới đều mang lại những cải tiến về hiệu suất và hiệu quả. Một số kiến trúc xương sống có ảnh hưởng nhất bao gồm:

  • Mạng dư thừa (ResNet) : Được giới thiệu bởi Microsoft Research , các mô hình ResNet sử dụng "bỏ qua kết nối" để cho phép đào tạo các mạng sâu hơn nhiều bằng cách giảm thiểu vấn đề độ dốc biến mất.
  • EfficientNet: Được phát triển bởi Google AI , nhóm mô hình này sử dụng phương pháp mở rộng hợp chất giúp cân bằng đồng đều độ sâu, chiều rộng và độ phân giải của mạng để tạo ra các mô hình vừa có độ chính xác cao vừa hiệu quả về mặt tính toán.
  • Vision Transformer (ViT) : Kiến trúc này áp dụng mô hình Transformer rất thành công từ xử lý ngôn ngữ tự nhiên (NLP) cho các tác vụ thị giác. ViT xử lý hình ảnh dưới dạng chuỗi các mảng và sử dụng khả năng tự chú ý để nắm bắt bối cảnh toàn cục, một sự khác biệt so với các trường tiếp nhận cục bộ của CNN truyền thống.
  • CSPNet (Mạng một phần xuyên giai đoạn): Như đã được trình bày chi tiết trong bài báo gốc , kiến trúc này cải thiện hiệu quả học tập bằng cách phân vùng bản đồ đặc trưng để giảm thiểu tình trạng tắc nghẽn tính toán. Đây là một thành phần quan trọng trong nhiều Ultralytics YOLO các mô hình.

Backbone so với Head và Neck

Trong kiến trúc phát hiện đối tượng hiện đại, mô hình thường được chia thành ba phần chính:

  1. Xương sống: Là nền tảng, vai trò của nó là trích xuất bản đồ đặc trưng ở nhiều tỷ lệ khác nhau từ hình ảnh đầu vào.
  2. Neck: Thành phần này kết nối xương sống với đầu. Nó tinh chỉnh và tổng hợp các đặc điểm từ xương sống, thường kết hợp thông tin từ các lớp khác nhau để tạo ra biểu diễn phong phú hơn. Một ví dụ phổ biến là Mạng Kim tự tháp Đặc điểm (FPN) .
  3. Đầu phát hiện : Đây là phần cuối cùng của mạng. Nó lấy các đặc trưng đã được tinh chỉnh từ phần cổ và thực hiện nhiệm vụ chính, chẳng hạn như dự đoán các hộp giới hạn , nhãn lớp và điểm tin cậy cho từng đối tượng.

Do đó, xương sống là nền tảng cơ bản của toàn bộ mô hình. Bạn có thể khám phá nhiều so sánh mô hình YOLO khác nhau để xem các lựa chọn kiến trúc khác nhau ảnh hưởng đến hiệu suất như thế nào.

Các Ứng dụng Thực tế

Xương sống là thành phần thiết yếu trong vô số ứng dụng AI trên nhiều ngành công nghiệp khác nhau:

  1. Xe tự hành : Trong xe tự lái , các xương sống mạnh mẽ như các biến thể ResNet hoặc EfficientNet xử lý hình ảnh từ camera để detect Và classify Các phương tiện khác, người đi bộ và tín hiệu giao thông. Việc trích xuất tính năng này rất quan trọng đối với việc điều hướng và ra quyết định của xe, như đã được chứng minh trong các hệ thống do các công ty như Waymo phát triển.
  2. Phân tích Hình ảnh Y tế : Trong các giải pháp AI chăm sóc sức khỏe , xương sống được sử dụng để phân tích các hình ảnh chụp X-quang và MRI. Ví dụ, xương sống có thể trích xuất các đặc điểm từ ảnh X-quang ngực để giúp xác định các dấu hiệu viêm phổi hoặc từ ảnh chụp CT để tìm khối u tiềm ẩn, như đã được nêu bật trong nghiên cứu từ Radiology: Artificial Intelligence . Điều này hỗ trợ các bác sĩ X-quang chẩn đoán nhanh hơn và chính xác hơn, và các mô hình như YOLO11 có thể được tinh chỉnh cho các nhiệm vụ chuyên biệt như phát hiện khối u .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay