Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Bản đồ đặc trưng

Khám phá cách các bản đồ đặc trưng hoạt động như "đôi mắt" của mạng CNN. Tìm hiểu cách thức Ultralytics YOLO26 sử dụng các biểu diễn nội bộ này để detect Các mẫu và sức mạnh của thị giác máy tính.

Bản đồ đặc trưng là đầu ra cơ bản được tạo ra khi bộ lọc tích chập xử lý hình ảnh đầu vào hoặc lớp trước đó trong mạng nơ-ron. Trong bối cảnh thị giác máy tính (CV) , các bản đồ này đóng vai trò là biểu diễn nội bộ của dữ liệu, làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc các hình dạng hình học phức tạp mà mô hình đã học được cách nhận biết. Về cơ bản, bản đồ đặc trưng hoạt động như "đôi mắt" của Mạng nơ-ron tích chập (CNN) , chuyển đổi các giá trị pixel thô thành các trừu tượng có ý nghĩa, hỗ trợ các tác vụ như phát hiện và phân loại đối tượng .

Cơ chế đằng sau bản đồ đặc trưng

Việc tạo ra bản đồ đặc trưng được thực hiện bằng phép toán tích chập . Trong quá trình này, một ma trận nhỏ gồm các tham số có thể học được, được gọi là kernel hoặc filter, sẽ trượt trên dữ liệu đầu vào. Tại mỗi vị trí, kernel thực hiện phép nhân và phép cộng từng phần tử, tạo ra một giá trị duy nhất trong lưới đầu ra.

  • Kích hoạt theo mẫu : Mỗi bộ lọc được huấn luyện để tìm kiếm một đặc điểm cụ thể. Khi bộ lọc gặp đặc điểm đó trong dữ liệu đầu vào, giá trị thu được trong bản đồ đặc điểm sẽ cao, cho thấy sự kích hoạt mạnh mẽ.
  • Phân cấp không gian : Trong kiến ​​trúc học sâu (DL) , các bản đồ đặc trưng được sắp xếp theo thứ bậc. Các lớp đầu tiên tạo ra các bản đồ mà... detect Các chi tiết cấp thấp như đường viền và đường cong. Các lớp sâu hơn kết hợp các bản đồ đơn giản này để tạo thành các biểu diễn cấp cao của các đối tượng phức tạp, chẳng hạn như khuôn mặt hoặc phương tiện.
  • Thay đổi về chiều dữ liệu : Khi dữ liệu được xử lý qua mạng nơ-ron, các thao tác như gộp lớp (pooling layers ) thường làm giảm chiều không gian (chiều cao và chiều rộng) của bản đồ đặc trưng trong khi tăng chiều sâu (số kênh). Quá trình này, thường được gọi là giảm chiều dữ liệu , giúp mô hình tập trung vào sự hiện diện của các đặc trưng hơn là vị trí pixel chính xác của chúng.

Các Ứng dụng Thực tế

Bản đồ đặc trưng là động lực chính cho các ứng dụng trí tuệ nhân tạo hiện đại, cho phép các hệ thống diễn giải dữ liệu trực quan với khả năng hiểu biết giống như con người.

  • Chẩn đoán y khoa : Trong phân tích hình ảnh y khoa , các mô hình sử dụng bản đồ đặc trưng để xử lý ảnh chụp X-quang hoặc MRI. Các bản đồ ban đầu có thể làm nổi bật đường viền xương, trong khi các bản đồ sâu hơn xác định các bất thường như khối u hoặc gãy xương, hỗ trợ các bác sĩ trong việc ứng dụng trí tuệ nhân tạo (AI) vào chăm sóc sức khỏe .
  • Điều hướng tự động : Xe tự lái phụ thuộc rất nhiều vào bản đồ đặc điểm được tạo ra bởi các cảm biến hình ảnh. Những bản đồ này cho phép máy tính trên xe phân biệt giữa các làn đường, người đi bộ và biển báo giao thông trong thời gian thực, điều này rất quan trọng để xe tự lái hoạt động an toàn.

Làm việc với bản đồ đặc trưng trong Python

Mặc dù bản đồ đặc trưng là cấu trúc bên trong, việc hiểu kích thước của chúng rất quan trọng khi thiết kế kiến ​​trúc. Ví dụ PyTorch sau đây minh họa cách một lớp tích chập đơn lẻ biến đổi hình ảnh đầu vào thành bản đồ đặc trưng.

import torch
import torch.nn as nn

# Define a convolution layer: 1 input channel, 1 output filter, 3x3 kernel
conv_layer = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, bias=False)

# Create a random dummy image (Batch Size=1, Channels=1, Height=5, Width=5)
input_image = torch.randn(1, 1, 5, 5)

# Pass the image through the layer to generate the feature map
feature_map = conv_layer(input_image)

print(f"Input shape: {input_image.shape}")
# The output shape will be smaller (3x3) due to the kernel size and no padding
print(f"Feature Map shape: {feature_map.shape}")

Phân biệt các khái niệm liên quan

Việc phân biệt các bản đồ đặc trưng từ các thuật ngữ tương tự rất hữu ích để tránh nhầm lẫn trong quá trình huấn luyện mô hình :

  • Bản đồ đặc trưng so với bộ lọc : Bộ lọc (hoặc kernel) là công cụ được sử dụng để quét ảnh; nó chứa trọng số của mô hình . Bản đồ đặc trưng là kết quả của quá trình quét đó. Bạn có thể coi bộ lọc như "thấu kính" và bản đồ đặc trưng như "hình ảnh" được thu qua thấu kính đó.
  • Bản đồ đặc trưng so với phép nhúng : Mặc dù cả hai đều biểu diễn dữ liệu, bản đồ đặc trưng thường giữ lại cấu trúc không gian (chiều cao và chiều rộng) phù hợp cho phân đoạn ngữ nghĩa . Ngược lại, phép nhúng thường là các vectơ 1D được làm phẳng, nắm bắt ý nghĩa ngữ nghĩa nhưng loại bỏ bố cục không gian, thường được sử dụng trong các tác vụ tìm kiếm sự tương đồng .
  • Bản đồ đặc trưng so với hàm kích hoạt : Một hàm kích hoạt (như ReLU ) được áp dụng cho các giá trị trong bản đồ đặc trưng để tạo ra tính phi tuyến tính. Bản đồ tồn tại cả trước và sau phép toán này.

Mức độ liên quan đến Ultralytics Mô hình

Trong các kiến ​​trúc tiên tiến như YOLO26 , bản đồ đặc trưng đóng vai trò then chốt trong "xương sống" và "đầu" của mô hình. Xương sống trích xuất các đặc trưng ở các tỷ lệ khác nhau (kim tự tháp đặc trưng), đảm bảo mô hình có thể... detect Cả các đối tượng nhỏ và lớn đều có thể được nhận diện hiệu quả. Người dùng sử dụng Nền tảng Ultralytics để huấn luyện có thể hình dung được hiệu suất của các mô hình này, gián tiếp quan sát hiệu quả của các bản đồ đặc trưng cơ bản thông qua các chỉ số như độ chính xác và độ thu hồi. Việc tối ưu hóa các bản đồ này bao gồm huấn luyện chuyên sâu trên các tập dữ liệu được chú thích, thường sử dụng các kỹ thuật như trích xuất đặc trưng để chuyển giao kiến ​​thức từ các mô hình đã được huấn luyện trước đó sang các nhiệm vụ mới.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay