Khám phá vai trò của backbone trong deep learning, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT, và ứng dụng AI thực tế của chúng.
Xương sống là thành phần cốt lõi của mô hình học sâu , đặc biệt là trong thị giác máy tính (CV) . Nó hoạt động như một mạng lưới trích xuất đặc trưng chính, được thiết kế để lấy dữ liệu đầu vào thô như hình ảnh và chuyển đổi nó thành một tập hợp các đặc trưng cấp cao. Các bản đồ đặc trưng này nắm bắt các mẫu thiết yếu như cạnh, kết cấu và hình dạng. Biểu diễn phong phú này sau đó được sử dụng bởi các phần tiếp theo của mạng để thực hiện các tác vụ như phát hiện đối tượng , phân đoạn ảnh hoặc phân loại ảnh . Xương sống là nền tảng của mạng nơ-ron (NN) học cách "nhìn" các yếu tố thị giác cơ bản trong ảnh.
Thông thường, xương sống là một Mạng nơ-ron tích chập (CNN) sâu đã được đào tạo trước trên một tập dữ liệu phân loại quy mô lớn, chẳng hạn như ImageNet . Quá trình đào tạo trước này, một hình thức học chuyển giao , cho phép mạng học một thư viện lớn các đặc điểm hình ảnh chung. Khi phát triển một mô hình cho một tác vụ mới, cụ thể, các nhà phát triển thường sử dụng một xương sống được đào tạo trước thay vì bắt đầu từ đầu. Cách tiếp cận này rút ngắn đáng kể thời gian cần thiết để đào tạo các mô hình tùy chỉnh và giảm yêu cầu dữ liệu, thường dẫn đến hiệu suất tốt hơn. Các đặc điểm được xương sống trích xuất sau đó được chuyển đến "cổ" và "đầu" của mạng, thực hiện tinh chỉnh thêm và tạo ra đầu ra cuối cùng. Việc lựa chọn xương sống thường là sự đánh đổi giữa độ chính xác, kích thước mô hình và độ trễ suy luận , một yếu tố quan trọng để đạt được hiệu suất thời gian thực .
Đoạn mã sau đây minh họa cách mô hình Ultralytics YOLO11 được đào tạo trước, chứa xương sống hiệu quả, có thể được tải và sử dụng để suy luận trên hình ảnh.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Thiết kế xương sống đã có những bước tiến đáng kể, với mỗi kiến trúc mới đều mang lại những cải tiến về hiệu suất và hiệu quả. Một số kiến trúc xương sống có ảnh hưởng nhất bao gồm:
Trong kiến trúc phát hiện đối tượng hiện đại, mô hình thường được chia thành ba phần chính:
Do đó, xương sống là nền tảng cơ bản của toàn bộ mô hình. Bạn có thể khám phá nhiều so sánh mô hình YOLO khác nhau để xem các lựa chọn kiến trúc khác nhau ảnh hưởng đến hiệu suất như thế nào.
Xương sống là thành phần thiết yếu trong vô số ứng dụng AI trên nhiều ngành công nghiệp khác nhau: