Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Backbone (Mạng xương sống)

Khám phá vai trò của backbone trong deep learning, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT, và ứng dụng AI thực tế của chúng.

Backbone là thành phần trích xuất đặc trưng cơ bản của kiến ​​trúc học sâu , hoạt động như động cơ chính chuyển đổi dữ liệu thô thành các biểu diễn có ý nghĩa. Trong bối cảnh thị giác máy tính , backbone thường bao gồm một loạt các lớp trong mạng nơ-ron xử lý hình ảnh đầu vào để xác định các mẫu phân cấp. Các mẫu này bao gồm từ các đặc trưng cấp thấp đơn giản như cạnh và kết cấu đến các khái niệm cấp cao phức tạp như hình dạng và đối tượng. Đầu ra của backbone, thường được gọi là bản đồ đặc trưng , ​​đóng vai trò là đầu vào cho các thành phần tiếp theo thực hiện các nhiệm vụ cụ thể như phân loại hoặc phát hiện.

Vai trò của xương sống

Chức năng chính của một hệ thống mạng nơ-ron (backbone) là "nhìn" và hiểu nội dung hình ảnh trước khi đưa ra bất kỳ quyết định cụ thể nào. Nó hoạt động như một bộ chuyển đổi phổ quát, chuyển đổi giá trị pixel thành định dạng cô đọng, giàu thông tin. Hầu hết các hệ thống mạng nơ-ron hiện đại dựa trên Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi hình ảnh (ViT) và thường được huấn luyện trước trên các tập dữ liệu khổng lồ như ImageNet . Quá trình huấn luyện trước này, một khía cạnh cốt lõi của học chuyển giao , cho phép mô hình tận dụng các đặc điểm hình ảnh đã học trước đó, giảm đáng kể dữ liệu và thời gian cần thiết để huấn luyện một mô hình mới cho một ứng dụng cụ thể.

Ví dụ, khi sử dụng Ultralytics YOLO26 , kiến ​​trúc này bao gồm một mạng xương sống được tối ưu hóa cao, giúp trích xuất hiệu quả các đặc trưng đa tỷ lệ. Điều này cho phép các phần tiếp theo của mạng tập trung hoàn toàn vào việc định vị đối tượng và gán xác suất lớp mà không cần phải học lại cách nhận dạng các cấu trúc hình ảnh cơ bản từ đầu.

Xương sống so với cổ so với đầu

Để hiểu rõ kiến ​​trúc của các mô hình phát hiện đối tượng, điều cần thiết là phải phân biệt phần xương sống với hai thành phần chính khác: cổ và đầu.

  • Backbone : "Bộ trích xuất đặc trưng". Nó tách biệt các thông tin hình ảnh thiết yếu từ ảnh đầu vào. Các ví dụ phổ biến bao gồm Mạng dư (Residual Networks - ResNet) , ban đầu được phát triển bởi Microsoft Research , và CSPNet, được tối ưu hóa cho hiệu quả tính toán.
  • Cổ: "Bộ tổng hợp đặc trưng." Nằm giữa xương sống và đầu, cổ tinh chỉnh và kết hợp các đặc trưng từ các quy mô khác nhau. Một cấu trúc phổ biến được sử dụng ở đây là Mạng Kim tự tháp Đặc trưng (FPN) , giúp tăng cường khả năng của mô hình. detect các vật thể có kích thước khác nhau.
  • Đầu: "Bộ phận dự đoán." Đầu phát hiện xử lý các đặc điểm tổng hợp từ cổ để tạo ra kết quả cuối cùng, chẳng hạn như khung bao và nhãn lớp.

Các Ứng dụng Thực tế

Hệ thống máy chủ xương sống là những "ngựa chiến" thầm lặng đứng sau nhiều ứng dụng trí tuệ nhân tạo trong công nghiệp và khoa học. Khả năng khái quát hóa dữ liệu hình ảnh giúp chúng thích ứng được trong nhiều lĩnh vực khác nhau.

  1. Chẩn đoán y khoa: Trong lĩnh vực chăm sóc sức khỏe, các hệ thống mạng nơ-ron phân tích các hình ảnh y tế phức tạp như X-quang, chụp CT và MRI. Bằng cách thực hiện phân tích hình ảnh y tế , các mạng này có thể trích xuất những bất thường nhỏ cho thấy dấu hiệu của bệnh. Ví dụ, các mô hình chuyên biệt tận dụng các hệ thống mạng nơ-ron mạnh mẽ để phát hiện khối u , xác định các dấu hiệu sớm của ung thư mà mắt thường có thể bỏ sót. Các tổ chức như Hiệp hội X quang Bắc Mỹ (RSNA) ủng hộ việc sử dụng các công cụ học sâu này để cách mạng hóa việc chăm sóc bệnh nhân.
  2. Hệ thống tự hành: Trong ngành công nghiệp ô tô và robot, các hệ thống xương sống xử lý nguồn cấp dữ liệu video từ camera trên xe để diễn giải môi trường. Trí tuệ nhân tạo trong ngành ô tô dựa vào các bộ trích xuất đặc điểm mạnh mẽ này để detect Hệ thống có thể nhận diện làn đường, đọc biển báo giao thông và xác định người đi bộ trong thời gian thực. Một hệ thống cơ sở hạ tầng đáng tin cậy đảm bảo khả năng phân biệt giữa các chướng ngại vật tĩnh và phương tiện đang di chuyển, một yêu cầu an toàn quan trọng đối với các công nghệ lái xe tự động được phát triển bởi các công ty như Waymo .

Thực hiện với Ultralytics

Các kiến ​​trúc hiện đại như YOLO11 và YOLO26 tiên tiến tích hợp sẵn các thành phần cốt lõi mạnh mẽ. Các thành phần này được thiết kế để tối ưu hóa độ trễ suy luận trên nhiều nền tảng phần cứng khác nhau, từ các thiết bị biên đến GPU hiệu năng cao.

Sau đây Python Đoạn mã này minh họa cách tải mô hình với kiến ​​trúc xương sống được huấn luyện trước bằng cách sử dụng... ultralytics gói này. Cấu hình này tự động tận dụng nền tảng để trích xuất đặc trưng trong quá trình suy luận.

from ultralytics import YOLO

# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")

# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting detection
results[0].show()

Bằng cách sử dụng mô hình xương sống được huấn luyện trước, các nhà phát triển có thể tinh chỉnh trên các tập dữ liệu tùy chỉnh của riêng họ bằng cách sử dụng Nền tảng Ultralytics . Cách tiếp cận này tạo điều kiện thuận lợi cho việc phát triển nhanh chóng các mô hình chuyên biệt — chẳng hạn như các mô hình được sử dụng để phát hiện các gói hàng trong lĩnh vực hậu cần — mà không cần đến nguồn tài nguyên tính toán khổng lồ thường yêu cầu để huấn luyện một mạng nơ-ron sâu từ đầu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay