Khám phá cách học không giám sát sử dụng phân cụm, giảm chiều và phát hiện dị thường để khám phá các mẫu ẩn trong dữ liệu.
Học không giám sát là một nhánh động của học máy (ML), trong đó các thuật toán phân tích và phân cụm các tập dữ liệu chưa được gắn nhãn. Không giống như các phương pháp có giám sát yêu cầu "khóa đáp án" hoặc các cặp đầu vào-đầu ra được gắn nhãn, các thuật toán học không giám sát được tự động khám phá các mẫu ẩn, cấu trúc cơ bản và mối tương quan trong dữ liệu. Khả năng này khiến nó trở thành một công cụ thiết yếu trong lĩnh vực trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là đối với phân tích dữ liệu thăm dò, nơi các đặc điểm của dữ liệu chưa được hiểu đầy đủ.
Học không giám sát bao gồm một số phương pháp được thiết kế để trích xuất thông tin chi tiết từ dữ liệu thô. Các kỹ thuật này thường được phân loại theo mục tiêu cụ thể của chúng:
Khả năng xử lý khối lượng lớn dữ liệu chưa được gắn nhãn cho phép học tập không giám sát thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau:
Để hiểu được vị trí của học không giám sát trong bối cảnh ML, cần phải phân biệt nó với các phương pháp tiếp cận khác:
Trong khi các khuôn khổ như Ultralytics nổi tiếng với các tác vụ thị giác có giám sát, khái niệm cơ bản về nhóm dữ liệu là phổ biến. Dưới đây là một ví dụ đơn giản sử dụng
scikit-learn thư viện để thực hiện phân cụ K-Means, nhóm các điểm dữ liệu dựa trên các tính năng của chúng mà không có bất kỳ nhãn nào.
import numpy as np
from sklearn.cluster import KMeans
# Create a simple dataset with two distinct groups of data points
# Group 1 is near (1, 2), Group 2 is near (10, 4)
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize K-Means to find 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (No labels are provided here)
kmeans.fit(X)
# The model automatically assigns a label (0 or 1) to each point based on proximity
print(f"Predicted Clusters: {kmeans.labels_}")
# Output might look like: [1 1 1 0 0 0] showing the separation
Học không giám sát đóng vai trò quan trọng trong sự phát triển của học sâu (DL) . Các kỹ thuật hiện đại như Học tự giám sát — trong đó hệ thống tự tạo nhãn từ dữ liệu — đang cách mạng hóa các lĩnh vực như Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính (CV) . Khi khối lượng dữ liệu toàn cầu tăng theo cấp số nhân, khả năng học từ thông tin không có nhãn ngày càng trở nên quan trọng đối với các quy trình khoa học dữ liệu có khả năng mở rộng.
Để tìm hiểu sâu hơn về các chi tiết kỹ thuật, các tài nguyên như hướng dẫn về Học không giám sát của IBM và tài liệu phân cụ Scikit-learn sẽ là nguồn tài liệu tham khảo tuyệt vời.