Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học không giám sát

Khám phá cách học không giám sát sử dụng phân cụm, giảm chiều và phát hiện dị thường để khám phá các mẫu ẩn trong dữ liệu.

Học không giám sát là một nhánh động của học máy (ML), trong đó các thuật toán phân tích và phân cụm các tập dữ liệu chưa được gắn nhãn. Không giống như các phương pháp có giám sát yêu cầu "khóa đáp án" hoặc các cặp đầu vào-đầu ra được gắn nhãn, các thuật toán học không giám sát được tự động khám phá các mẫu ẩn, cấu trúc cơ bản và mối tương quan trong dữ liệu. Khả năng này khiến nó trở thành một công cụ thiết yếu trong lĩnh vực trí tuệ nhân tạo (AI) rộng lớn hơn, đặc biệt là đối với phân tích dữ liệu thăm dò, nơi các đặc điểm của dữ liệu chưa được hiểu đầy đủ.

Kỹ thuật và thuật toán cốt lõi

Học không giám sát bao gồm một số phương pháp được thiết kế để trích xuất thông tin chi tiết từ dữ liệu thô. Các kỹ thuật này thường được phân loại theo mục tiêu cụ thể của chúng:

  • Phân cụm : Đây là ứng dụng phổ biến nhất, trong đó thuật toán nhóm các điểm dữ liệu có cùng đặc điểm. Các thuật toán phổ biến bao gồm K-Means , phân vùng dữ liệu thành k cụm riêng biệt, và DBSCAN , xác định cụm dựa trên mật độ dữ liệu.
  • Giảm chiều : Khi tập dữ liệu có quá nhiều biến (chiều cao), việc trực quan hóa hoặc xử lý chúng trở nên khó khăn. Các kỹ thuật như Phân tích Thành phần Chính (PCA)Nhúng Hàng xóm Ngẫu nhiên Phân tán t (t-SNE) giúp giảm số lượng đầu vào trong khi vẫn giữ nguyên thông tin thiết yếu, thường được sử dụng như một bước trong quá trình tiền xử lý dữ liệu .
  • Khai thác quy tắc kết hợp: Kỹ thuật này khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Một ví dụ điển hình là phân tích giỏ hàng , được các nhà bán lẻ sử dụng để xác định các mặt hàng thường được mua cùng nhau.

Các Ứng dụng Thực tế

Khả năng xử lý khối lượng lớn dữ liệu chưa được gắn nhãn cho phép học tập không giám sát thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau:

  1. Phát hiện Bất thường : Bằng cách học dữ liệu "bình thường" trông như thế nào, các mô hình không giám sát có thể ngay lập tức đánh dấu các sai lệch. Trong AI trong sản xuất , điều này được sử dụng cho bảo trì dự đoán để xác định lỗi máy móc trước khi chúng xảy ra. Tương tự, các tổ chức tài chính sử dụng nó để detect các giao dịch gian lận khác với mô hình chi tiêu thông thường.
  2. Phân khúc khách hàng: Các doanh nghiệp sử dụng thuật toán phân cụm để nhóm khách hàng dựa trên hành vi mua sắm hoặc nhân khẩu học mà không cần phân loại theo danh mục định sẵn. Điều này cho phép triển khai các chiến lược tiếp thị siêu cá nhân hóa, một thành phần quan trọng của AI hiện đại trong các giải pháp bán lẻ .

So sánh với các mô hình học khác

Để hiểu được vị trí của học không giám sát trong bối cảnh ML, cần phải phân biệt nó với các phương pháp tiếp cận khác:

  • Học có giám sát : Dựa vào các tập dữ liệu được gắn nhãn để huấn luyện các thuật toán nhằm dự đoán kết quả, chẳng hạn như phát hiện đối tượng bằng các mô hình như YOLO11 . Mô hình học hỏi từ các ví dụ cụ thể.
  • Học bán giám sát : Một phương pháp kết hợp sử dụng một lượng nhỏ dữ liệu đã được gắn nhãn kết hợp với một lượng lớn dữ liệu chưa được gắn nhãn. Phương pháp này thường được sử dụng để cải thiện hiệu suất khi việc gắn nhãn dữ liệu tốn kém hoặc mất nhiều thời gian.
  • Học tăng cường : Tập trung vào việc tác nhân học cách đưa ra quyết định bằng cách thực hiện các hành động trong môi trường và nhận phần thưởng hoặc hình phạt, thay vì tìm kiếm các mẫu tĩnh trong tập dữ liệu.

Ví dụ triển khai

Trong khi các khuôn khổ như Ultralytics nổi tiếng với các tác vụ thị giác có giám sát, khái niệm cơ bản về nhóm dữ liệu là phổ biến. Dưới đây là một ví dụ đơn giản sử dụng scikit-learn thư viện để thực hiện phân cụ K-Means, nhóm các điểm dữ liệu dựa trên các tính năng của chúng mà không có bất kỳ nhãn nào.

import numpy as np
from sklearn.cluster import KMeans

# Create a simple dataset with two distinct groups of data points
# Group 1 is near (1, 2), Group 2 is near (10, 4)
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# Initialize K-Means to find 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")

# Fit the model to the data (No labels are provided here)
kmeans.fit(X)

# The model automatically assigns a label (0 or 1) to each point based on proximity
print(f"Predicted Clusters: {kmeans.labels_}")
# Output might look like: [1 1 1 0 0 0] showing the separation

Tương lai của học tập không giám sát

Học không giám sát đóng vai trò quan trọng trong sự phát triển của học sâu (DL) . Các kỹ thuật hiện đại như Học tự giám sát — trong đó hệ thống tự tạo nhãn từ dữ liệu — đang cách mạng hóa các lĩnh vực như Xử lý ngôn ngữ tự nhiên (NLP)Thị giác máy tính (CV) . Khi khối lượng dữ liệu toàn cầu tăng theo cấp số nhân, khả năng học từ thông tin không có nhãn ngày càng trở nên quan trọng đối với các quy trình khoa học dữ liệu có khả năng mở rộng.

Để tìm hiểu sâu hơn về các chi tiết kỹ thuật, các tài nguyên như hướng dẫn về Học không giám sát của IBMtài liệu phân cụ Scikit-learn sẽ là nguồn tài liệu tham khảo tuyệt vời.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay