Đơn giản hóa dữ liệu đa chiều với Phân tích thành phần chính (PCA). Nâng cao hiệu quả của AI, mô hình ML và trực quan hóa dữ liệu ngay hôm nay!
Phân tích Thành phần Chính (PCA) là một kỹ thuật cơ bản để giảm chiều trong học máy (ML) . Mục tiêu chính của nó là đơn giản hóa độ phức tạp của dữ liệu đa chiều trong khi vẫn giữ lại càng nhiều thông tin gốc (phương sai) càng tốt. PCA đạt được điều này bằng cách chuyển đổi tập hợp các biến ban đầu thành một tập hợp mới, nhỏ hơn các biến không tương quan, được gọi là "thành phần chính". Các thành phần này được sắp xếp sao cho một vài thành phần đầu tiên giữ lại hầu hết các biến thể có trong tập dữ liệu gốc. Điều này khiến PCA trở thành một công cụ vô giá cho việc tiền xử lý dữ liệu , khám phá dữ liệu và trực quan hóa dữ liệu .
Về cơ bản, PCA xác định hướng của phương sai cực đại trong một tập dữ liệu. Hãy tưởng tượng một biểu đồ phân tán các điểm dữ liệu; PCA tìm đường thẳng thể hiện tốt nhất sự phân tán của dữ liệu. Đường thẳng này biểu diễn thành phần chính thứ nhất. Thành phần chính thứ hai là một đường thẳng khác, vuông góc với đường thẳng thứ nhất, thể hiện lượng phương sai lớn thứ hai. Bằng cách chiếu dữ liệu gốc lên các thành phần mới này, PCA tạo ra một biểu diễn có chiều thấp hơn, lọc nhiễu và làm nổi bật các mẫu quan trọng nhất. Quá trình này rất quan trọng để cải thiện hiệu suất mô hình bằng cách giảm nguy cơ quá khớp và giảm tài nguyên tính toán cần thiết cho quá trình huấn luyện .
PCA được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau của Trí tuệ nhân tạo (AI) và thị giác máy tính (CV) .
PCA là một kỹ thuật tuyến tính, nghĩa là nó giả định mối quan hệ giữa các biến là tuyến tính . Mặc dù mạnh mẽ và dễ diễn giải, nhưng nó có thể không nắm bắt hiệu quả các cấu trúc phức tạp, phi tuyến tính.
Mặc dù có nhiều kỹ thuật tiên tiến hơn, PCA vẫn là một công cụ giá trị, thường được sử dụng làm đường cơ sở hoặc bước đầu tiên trong quy trình khám phá và tiền xử lý dữ liệu. Trong hệ sinh thái Ultralytics, mặc dù các mô hình như Ultralytics YOLO sử dụng tính năng trích xuất đặc trưng tích hợp trong xương sống CNN của chúng, nhưng các nguyên tắc giảm chiều là chìa khóa. Các nền tảng như Ultralytics HUB giúp quản lý toàn bộ quy trình làm việc của ML, từ việc tổ chức bộ dữ liệu đến triển khai mô hình , trong đó các bước tiền xử lý như vậy rất quan trọng để đạt được kết quả tối ưu.