Khám phá vai trò của backbone trong deep learning, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT, và ứng dụng AI thực tế của chúng.
Backbone là thành phần trích xuất đặc trưng cơ bản của kiến trúc học sâu , hoạt động như động cơ chính chuyển đổi dữ liệu thô thành các biểu diễn có ý nghĩa. Trong bối cảnh thị giác máy tính , backbone thường bao gồm một loạt các lớp trong mạng nơ-ron xử lý hình ảnh đầu vào để xác định các mẫu phân cấp. Các mẫu này bao gồm từ các đặc trưng cấp thấp đơn giản như cạnh và kết cấu đến các khái niệm cấp cao phức tạp như hình dạng và đối tượng. Đầu ra của backbone, thường được gọi là bản đồ đặc trưng , đóng vai trò là đầu vào cho các thành phần tiếp theo thực hiện các nhiệm vụ cụ thể như phân loại hoặc phát hiện.
Chức năng chính của một hệ thống mạng nơ-ron (backbone) là "nhìn" và hiểu nội dung hình ảnh trước khi đưa ra bất kỳ quyết định cụ thể nào. Nó hoạt động như một bộ chuyển đổi phổ quát, chuyển đổi giá trị pixel thành định dạng cô đọng, giàu thông tin. Hầu hết các hệ thống mạng nơ-ron hiện đại dựa trên Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi hình ảnh (ViT) và thường được huấn luyện trước trên các tập dữ liệu khổng lồ như ImageNet . Quá trình huấn luyện trước này, một khía cạnh cốt lõi của học chuyển giao , cho phép mô hình tận dụng các đặc điểm hình ảnh đã học trước đó, giảm đáng kể dữ liệu và thời gian cần thiết để huấn luyện một mô hình mới cho một ứng dụng cụ thể.
Ví dụ, khi sử dụng Ultralytics YOLO26 , kiến trúc này bao gồm một mạng xương sống được tối ưu hóa cao, giúp trích xuất hiệu quả các đặc trưng đa tỷ lệ. Điều này cho phép các phần tiếp theo của mạng tập trung hoàn toàn vào việc định vị đối tượng và gán xác suất lớp mà không cần phải học lại cách nhận dạng các cấu trúc hình ảnh cơ bản từ đầu.
Để hiểu rõ kiến trúc của các mô hình phát hiện đối tượng, điều cần thiết là phải phân biệt phần xương sống với hai thành phần chính khác: cổ và đầu.
Hệ thống máy chủ xương sống là những "ngựa chiến" thầm lặng đứng sau nhiều ứng dụng trí tuệ nhân tạo trong công nghiệp và khoa học. Khả năng khái quát hóa dữ liệu hình ảnh giúp chúng thích ứng được trong nhiều lĩnh vực khác nhau.
Các kiến trúc hiện đại như YOLO11 và YOLO26 tiên tiến tích hợp sẵn các thành phần cốt lõi mạnh mẽ. Các thành phần này được thiết kế để tối ưu hóa độ trễ suy luận trên nhiều nền tảng phần cứng khác nhau, từ các thiết bị biên đến GPU hiệu năng cao.
Sau đây Python Đoạn mã này minh họa cách tải mô hình với kiến trúc xương sống được huấn luyện trước bằng cách sử dụng...
ultralytics gói này. Cấu hình này tự động tận dụng nền tảng để trích xuất đặc trưng trong quá trình suy luận.
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
Bằng cách sử dụng mô hình xương sống được huấn luyện trước, các nhà phát triển có thể tinh chỉnh trên các tập dữ liệu tùy chỉnh của riêng họ bằng cách sử dụng Nền tảng Ultralytics . Cách tiếp cận này tạo điều kiện thuận lợi cho việc phát triển nhanh chóng các mô hình chuyên biệt — chẳng hạn như các mô hình được sử dụng để phát hiện các gói hàng trong lĩnh vực hậu cần — mà không cần đến nguồn tài nguyên tính toán khổng lồ thường yêu cầu để huấn luyện một mạng nơ-ron sâu từ đầu.