xương sống
Khám phá vai trò của xương sống trong học sâu, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT và tìm hiểu các ứng dụng AI thực tế của chúng.
Xương sống là thành phần cốt lõi của mô hình học sâu , đặc biệt là trong thị giác máy tính (CV) . Nó đóng vai trò là mạng trích xuất đặc trưng chính. Nhiệm vụ chính của nó là lấy dữ liệu đầu vào thô, chẳng hạn như hình ảnh, và chuyển đổi nó thành một tập hợp các đặc trưng cấp cao, hay còn gọi là bản đồ đặc trưng , có thể được sử dụng cho các tác vụ hạ nguồn như phát hiện đối tượng , phân đoạn ảnh hoặc phân loại . Bạn có thể hình dung xương sống như một phần của mạng nơ-ron (NN) học cách "nhìn" và hiểu các mẫu cơ bản—như cạnh, kết cấu, hình dạng và vật thể—trong một hình ảnh.
Cách thức hoạt động của Backbones
Xương sống thường là một Mạng nơ-ron tích chập (CNN) sâu đã được đào tạo trước trên một tập dữ liệu phân loại hình ảnh quy mô lớn, chẳng hạn như ImageNet . Quá trình đào tạo trước này, một hình thức học chuyển giao , dạy mạng nhận dạng một thư viện lớn các đặc điểm hình ảnh chung. Khi xây dựng một mô hình cho một tác vụ mới, các nhà phát triển thường sử dụng các xương sống đã được đào tạo trước này thay vì bắt đầu từ đầu. Cách tiếp cận này giảm đáng kể thời gian đào tạo và lượng dữ liệu được gắn nhãn cần thiết, đồng thời thường cải thiện hiệu suất của mô hình. Các đặc điểm được trích xuất bởi xương sống sau đó được chuyển đến "cổ" và "đầu" của mạng, thực hiện xử lý tiếp theo và tạo ra đầu ra cuối cùng. Việc lựa chọn xương sống thường liên quan đến sự đánh đổi giữa độ chính xác, kích thước mô hình và độ trễ suy luận , điều này rất quan trọng để đạt được hiệu suất thời gian thực .
Kiến trúc xương sống phổ biến
Thiết kế xương sống đã phát triển qua nhiều năm, với mỗi kiến trúc mới đều mang lại những cải tiến về hiệu suất và hiệu suất. Một số kiến trúc xương sống có ảnh hưởng nhất bao gồm:
- Mạng Dư (ResNet) : Được giới thiệu bởi Microsoft Research , các mô hình ResNet sử dụng "kết nối bỏ qua" để cho phép mạng học các hàm dư. Cải tiến này cho phép huấn luyện các mạng sâu hơn nhiều mà không gặp phải vấn đề gradient biến mất.
- EfficientNet: Được phát triển bởi Google AI , nhóm mô hình này sử dụng phương pháp tỷ lệ tổng hợp để cân bằng đồng đều độ sâu, chiều rộng và độ phân giải của mạng. Điều này tạo ra các mô hình vừa có độ chính xác cao vừa hiệu quả về mặt tính toán.
- Vision Transformer (ViT) : Áp dụng kiến trúc Transformer thành công từ NLP sang thị giác, ViT xử lý hình ảnh như một chuỗi các bản vá và sử dụng sự chú ý của bản thân để nắm bắt bối cảnh toàn cầu, cung cấp một cách tiếp cận khác so với các trường tiếp nhận cục bộ của CNN.
- CSPNet (Mạng một phần xuyên giai đoạn): Kiến trúc này, được mô tả trong bài báo gốc , cải thiện khả năng học bằng cách tích hợp các bản đồ đặc trưng từ đầu đến cuối giai đoạn mạng, giúp tăng cường lan truyền gradient và giảm thiểu tắc nghẽn tính toán. Đây là thành phần quan trọng trong nhiều mô hình YOLO của Ultralytics .
Xương sống so với Đầu và Cổ
Trong kiến trúc phát hiện đối tượng điển hình, mô hình bao gồm ba phần chính:
- Xương sống: Vai trò của nó là trích xuất đặc điểm từ hình ảnh đầu vào, tạo bản đồ đặc điểm ở nhiều tỷ lệ khác nhau.
- Neck: Thành phần này nằm giữa backbone và head. Nó tinh chỉnh và tổng hợp các bản đồ đặc trưng từ backbone, thường kết hợp các đặc trưng từ các lớp khác nhau để xây dựng một biểu diễn phong phú hơn. Một ví dụ phổ biến là Mạng Kim tự tháp Đặc trưng (FPN).
- Đầu phát hiện : Đây là phần cuối cùng của mạng, lấy các đặc điểm đã được tinh chỉnh từ phần cổ và thực hiện nhiệm vụ phát hiện thực tế. Nó dự đoán các hộp giới hạn , nhãn lớp và điểm tin cậy cho các đối tượng trong ảnh.
Do đó, xương sống là nền tảng mà phần còn lại của mô hình phát hiện được xây dựng dựa trên đó. Các mô hình như YOLOv8 và YOLO11 tích hợp các xương sống mạnh mẽ để đảm bảo trích xuất đặc điểm chất lượng cao, điều này rất cần thiết cho hiệu suất tiên tiến của chúng trên nhiều tác vụ khác nhau. Bạn có thể khám phá các so sánh mô hình YOLO khác nhau để xem các lựa chọn kiến trúc ảnh hưởng đến hiệu suất như thế nào.
Ứng dụng trong thế giới thực
Xương sống là thành phần cơ bản trong vô số ứng dụng AI:
- Lái xe tự động : Các hệ thống trong xe tự lái phụ thuộc rất nhiều vào các nền tảng vững chắc (ví dụ: các biến thể ResNet hoặc EfficientNet) để xử lý dữ liệu đầu vào từ camera và cảm biến LiDAR. Các đặc điểm được trích xuất cho phép phát hiện và phân loại phương tiện, người đi bộ, đèn giao thông và vạch kẻ đường, điều này rất quan trọng cho việc điều hướng an toàn và ra quyết định, như đã thấy trong các hệ thống do các công ty như Waymo phát triển.
- Phân tích hình ảnh y tế : Trong các giải pháp AI chăm sóc sức khỏe , các xương sống được sử dụng để phân tích các hình ảnh chụp X-quang, CT hoặc MRI. Ví dụ, một xương sống như DenseNet có thể trích xuất các đặc điểm từ ảnh chụp X-quang ngực để giúp phát hiện các dấu hiệu viêm phổi hoặc từ ảnh chụp CT để xác định các khối u tiềm ẩn ( nghiên cứu liên quan trong X-quang: AI ). Điều này hỗ trợ các bác sĩ X-quang trong việc chẩn đoán và lập kế hoạch điều trị. Các mô hình Ultralytics như YOLO11 có thể được điều chỉnh cho các nhiệm vụ như phát hiện khối u bằng cách tận dụng các xương sống mạnh mẽ.
Bạn có thể hợp lý hóa quy trình sử dụng các xương sống mạnh mẽ cho các dự án của riêng mình bằng cách sử dụng các nền tảng như Ultralytics HUB , giúp đơn giản hóa việc quản lý tập dữ liệu và đào tạo các mô hình tùy chỉnh .