Dimensionality Reduction
Tìm hiểu cách giảm chiều dữ liệu (dimensionality reduction) tối ưu hóa các quy trình ML. Khám phá các kỹ thuật như PCA và t-SNE để cải thiện hiệu suất Ultralytics YOLO26 và trực quan hóa dữ liệu.
Giảm chiều dữ liệu là một kỹ thuật biến đổi trong machine learning (ML) và khoa học dữ liệu được sử dụng để giảm số lượng biến đầu vào—thường được gọi là các đặc trưng hoặc chiều—trong một tập dữ liệu trong khi vẫn giữ lại những thông tin quan trọng nhất. Trong kỷ nguyên của big data, các tập dữ liệu thường chứa hàng ngàn biến, dẫn đến một hiện tượng được gọi là lời nguyền chiều dữ liệu. Hiện tượng này có thể làm cho quá trình huấn luyện mô hình trở nên tốn kém về tài nguyên tính toán, dễ bị overfitting và khó diễn giải. Bằng cách chiếu dữ liệu đa chiều vào một không gian có số chiều thấp hơn, các kỹ sư có thể cải thiện hiệu suất, khả năng trực quan hóa và hiệu năng dự đoán.
Link to this sectionNhững lợi ích cốt lõi trong phát triển AI#
Giảm độ phức tạp của dữ liệu là một bước cơ bản trong các quy trình tiền xử lý dữ liệu. Kỹ thuật này mang lại nhiều lợi thế thiết thực để xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ:
- Tăng cường hiệu suất tính toán: Ít đặc trưng hơn đồng nghĩa với việc ít dữ liệu cần xử lý hơn. Điều này giúp tăng tốc thời gian huấn luyện cho các thuật toán như YOLO26, làm cho chúng phù hợp hơn với suy luận thời gian thực và triển khai trên các thiết bị edge AI bị giới hạn tài nguyên.
- Cải thiện khả năng trực quan hóa dữ liệu: Trực giác con người khó có thể nắm bắt dữ liệu vượt quá ba chiều. Giảm chiều dữ liệu nén các tập dữ liệu phức tạp thành không gian 2D hoặc 3D, cho phép trực quan hóa dữ liệu hiệu quả để phát hiện các cụm, mẫu và dữ liệu ngoại lệ bằng cách sử dụng các công cụ như TensorFlow Embedding Projector.
- Giảm nhiễu: Bằng cách tập trung vào phương sai liên quan nhất trong dữ liệu, kỹ thuật này lọc bỏ nhiễu và các đặc trưng dư thừa. Điều này tạo ra dữ liệu huấn luyện sạch hơn, giúp các mô hình tổng quát hóa tốt hơn với các ví dụ chưa từng gặp.
- Tối ưu hóa lưu trữ: Việc lưu trữ các tập dữ liệu khổng lồ trên đám mây, chẳng hạn như những dữ liệu được quản lý thông qua Ultralytics Platform, có thể rất tốn kém. Nén không gian đặc trưng giúp giảm đáng kể yêu cầu lưu trữ mà không làm mất đi tính toàn vẹn của dữ liệu thiết yếu.
Link to this sectionCác kỹ thuật chính: Tuyến tính so với Phi tuyến#
Các phương pháp giảm chiều thường được phân loại dựa trên việc chúng bảo toàn cấu trúc tuyến tính toàn cục hay cấu trúc đa tạp phi tuyến cục bộ của dữ liệu.
Link to this sectionCác phương pháp tuyến tính#
Kỹ thuật tuyến tính lâu đời nhất là Phân tích thành phần chính (PCA). PCA hoạt động bằng cách xác định các "thành phần chính"—các trục trực giao thu giữ phương sai tối đa trong dữ liệu. Nó chiếu dữ liệu gốc lên các trục mới này, loại bỏ hiệu quả các chiều đóng góp ít thông tin. Đây là một thành phần cơ bản trong các quy trình học không giám sát.
Link to this sectionCác phương pháp phi tuyến#
Đối với các cấu trúc dữ liệu phức tạp, chẳng hạn như hình ảnh hoặc embedding văn bản, các phương pháp phi tuyến thường được yêu cầu. Các kỹ thuật như t-Distributed Stochastic Neighbor Embedding (t-SNE) và UMAP (Uniform Manifold Approximation and Projection) rất hiệu quả trong việc bảo toàn các vùng lân cận cục bộ, khiến chúng trở nên lý tưởng để trực quan hóa các cụm đa chiều. Ngoài ra, autoencoder là các mạng thần kinh được huấn luyện để nén đầu vào thành một biểu diễn không gian tiềm ẩn và tái tạo lại chúng, từ đó học được một cách mã hóa nhỏ gọn của dữ liệu.
Link to this sectionCác ứng dụng trong thực tế#
Giảm chiều dữ liệu là rất quan trọng trong nhiều lĩnh vực của deep learning (DL):
-
Computer Vision: Các bộ phát hiện vật thể hiện đại như YOLO26 xử lý các hình ảnh chứa hàng ngàn pixel. Các lớp bên trong sử dụng các kỹ thuật như pooling và strided convolution để giảm dần kích thước không gian của các feature map, chắt lọc các pixel thô thành các khái niệm ngữ nghĩa cấp cao (ví dụ: "cạnh", "mắt", "xe hơi").
-
Genomics và Chăm sóc sức khỏe: Trong phân tích ảnh y tế và tin sinh học, các nhà nghiên cứu phân tích dữ liệu biểu hiện gen với hàng chục ngàn biến. Giảm chiều dữ liệu giúp xác định các dấu ấn sinh học chính để phân loại bệnh, như đã thấy trong các nghiên cứu về di truyền học ung thư.
-
Hệ thống gợi ý: Các nền tảng như Netflix hoặc Spotify sử dụng phân rã ma trận (một kỹ thuật giảm chiều) để dự đoán sở thích của người dùng. Bằng cách giảm ma trận thưa các tương tác giữa người dùng và mục nội dung, họ có thể gợi ý nội dung hiệu quả dựa trên các đặc trưng tiềm ẩn.
Link to this sectionGiảm chiều dữ liệu so với Lựa chọn đặc trưng#
Điều quan trọng là phải phân biệt khái niệm này với lựa chọn đặc trưng, vì chúng đạt được các mục tiêu tương tự thông qua các cơ chế khác nhau:
- Lựa chọn đặc trưng liên quan đến việc chọn một tập con của các đặc trưng gốc (ví dụ: giữ "Tuổi" và loại bỏ "Tên"). Nó không thay đổi giá trị của các đặc trưng được chọn.
- Giảm chiều dữ liệu (cụ thể là trích xuất đặc trưng) tạo ra các đặc trưng mới là sự kết hợp của các đặc trưng gốc. Ví dụ, PCA có thể kết hợp "Chiều cao" và "Cân nặng" thành một thành phần mới duy nhất đại diện cho "Kích thước cơ thể."
Link to this sectionVí dụ Python: Giảm chiều Embedding hình ảnh#
Ví dụ sau đây minh họa cách lấy đầu ra đa chiều (mô phỏng một vector embedding hình ảnh) và giảm số chiều bằng cách sử dụng PCA. Đây là một quy trình phổ biến khi trực quan hóa cách một mô hình như YOLO26 nhóm các lớp tương tự lại với nhau.
import numpy as np
from sklearn.decomposition import PCA
# Simulate high-dimensional embeddings (e.g., 10 images, 512 features each)
# In a real workflow, these would come from a model like YOLO26n
embeddings = np.random.rand(10, 512)
# Initialize PCA to reduce from 512 dimensions to 2
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(embeddings)
# Output shape is now (10, 2), ready for 2D plotting
print(f"Original shape: {embeddings.shape}") # (10, 512)
print(f"Reduced shape: {reduced_data.shape}") # (10, 2)





