Học không giám sát
Khám phá cách học không giám sát sử dụng phân cụm, giảm chiều và phát hiện dị thường để khám phá các mẫu ẩn trong dữ liệu.
Unsupervised learning (học không giám sát) là một mô hình cơ bản trong machine learning (ML), trong đó các thuật toán được huấn luyện trên dữ liệu chưa được gắn nhãn, phân loại hoặc phân loại. Không giống như các phương pháp khác, hệ thống cố gắng tìm hiểu các mẫu và cấu trúc trực tiếp từ dữ liệu mà không có bất kỳ nhãn đầu ra tương ứng nào. Mục tiêu chính là khám phá dữ liệu và tìm các cấu trúc hoặc mẫu có ý nghĩa, làm cho nó trở thành một công cụ quan trọng để khám phá và phân tích dữ liệu trong lĩnh vực Artificial Intelligence (AI).
Các tác vụ học không giám sát cốt lõi
Các thuật toán unsupervised learning (học không giám sát) thường được sử dụng để phân tích dữ liệu thăm dò và có thể được nhóm thành một số tác vụ chính:
- Phân cụm (Clustering): Đây là tác vụ học không giám sát phổ biến nhất, liên quan đến việc nhóm các điểm dữ liệu thành các cụm dựa trên sự tương đồng của chúng. Mục tiêu là làm cho các điểm dữ liệu trong một cụm duy nhất rất giống nhau và khác với các điểm trong các cụm khác. Các thuật toán phổ biến bao gồm K-Means Clustering và DBSCAN.
- Giảm chiều dữ liệu (Dimensionality Reduction): Kỹ thuật này được sử dụng để giảm số lượng biến đầu vào trong một tập dữ liệu. Nó hữu ích khi xử lý dữ liệu chiều cao, vì nó có thể đơn giản hóa các mô hình, giảm thời gian tính toán và hỗ trợ trực quan hóa dữ liệu (data visualization). Phân tích thành phần chính (Principal Component Analysis - PCA) là một phương pháp được sử dụng rộng rãi cho tác vụ này.
- Khai thác luật kết hợp: Phương pháp này khám phá các mối quan hệ hoặc luật kết hợp thú vị giữa các biến trong cơ sở dữ liệu lớn. Một ví dụ điển hình là "phân tích giỏ hàng thị trường", tìm ra mối quan hệ giữa các mặt hàng thường được mua cùng nhau trong một cửa hàng.
Các Ứng dụng Thực tế
Unsupervised learning (học không giám sát) thúc đẩy sự đổi mới trong nhiều ngành công nghiệp. Dưới đây là một vài ví dụ cụ thể:
- Phân khúc khách hàng: Các công ty bán lẻ và thương mại điện tử sử dụng các thuật toán phân cụm để nhóm các khách hàng có hành vi và sở thích tương tự. Bằng cách phân tích lịch sử mua hàng, hoạt động duyệt web và nhân khẩu học, các doanh nghiệp có thể tạo các chiến dịch tiếp thị nhắm mục tiêu, đưa ra các đề xuất được cá nhân hóa và cải thiện trải nghiệm của khách hàng, cuối cùng là thúc đẩy AI trong bán lẻ.
- Phát hiện bất thường: Trong an ninh mạng, các mô hình học không giám sát có thể xác định lưu lượng mạng bất thường có thể cho thấy một vi phạm bảo mật. Tương tự, trong sản xuất, các thuật toán này có thể phát hiện các khuyết tật trong sản phẩm trên dây chuyền lắp ráp bằng cách xác định các sai lệch so với tiêu chuẩn, một thành phần quan trọng của kiểm tra chất lượng hiện đại.
So sánh với các mô hình học khác
Học không giám sát khác biệt đáng kể so với các phương pháp ML khác:
Unsupervised learning (học không giám sát) là một công cụ mạnh mẽ để khám phá dữ liệu, khám phá các cấu trúc ẩn và trích xuất các đặc trưng có giá trị. Nó thường đóng vai trò là bước đầu tiên quan trọng trong các quy trình data science (khoa học dữ liệu) phức tạp, chẳng hạn như thực hiện tiền xử lý dữ liệu trước khi đưa dữ liệu vào một mô hình supervised (có giám sát). Các nền tảng như Ultralytics HUB cung cấp các môi trường nơi các mô hình ML khác nhau, có khả năng kết hợp các kỹ thuật unsupervised (không giám sát) để phân tích bộ dữ liệu, có thể được phát triển và quản lý. Các framework như PyTorch và TensorFlow cung cấp các thư viện mở rộng hỗ trợ việc triển khai các thuật toán unsupervised (không giám sát) và bạn có thể khám phá thêm với các tài nguyên như hướng dẫn về unsupervised learning (học không giám sát) của Scikit-learn.