Unsupervised Learning
Khám phá học không giám sát (unsupervised learning) để khám phá các mẫu ẩn trong dữ liệu không dán nhãn. Tìm hiểu về phân cụm, phát hiện bất thường và cách nó thúc đẩy các giải pháp AI hiện đại.
Học không giám sát là một loại học máy trong đó thuật toán tự học các mô hình từ dữ liệu không được gắn nhãn mà không cần sự can thiệp của con người. Không giống như học có giám sát, vốn dựa vào các cặp đầu vào-đầu ra được gắn nhãn để huấn luyện một model, học không giám sát xử lý dữ liệu không có nhãn lịch sử. Về cơ bản, hệ thống cố gắng tự dạy chính nó bằng cách khám phá các cấu trúc, mô hình hoặc mối quan hệ ẩn bên trong dữ liệu đầu vào. Cách tiếp cận này đặc biệt có giá trị vì phần lớn dữ liệu được tạo ra ngày nay—hình ảnh, video, văn bản và nhật ký cảm biến—đều không có cấu trúc và không được gắn nhãn.
Link to this sectionCách thức hoạt động của Học không giám sát#
Trong các kịch bản không giám sát, thuật toán được để tự xoay xở để khám phá các cấu trúc thú vị trong dữ liệu. Mục tiêu thường là để mô hình hóa phân phối cơ bản của dữ liệu hoặc tìm hiểu sâu hơn về chính dữ liệu đó. Vì không có "câu trả lời đúng" nào được cung cấp trong quá trình huấn luyện, model không thể được đánh giá dựa trên độ chính xác theo nghĩa truyền thống. Thay vào đó, hiệu suất thường được đo lường bằng mức độ model giảm số chiều hoặc phân cụm các điểm dữ liệu tương tự lại với nhau.
Phương pháp này phản ánh cách con người thường học các khái niệm mới. Ví dụ, một đứa trẻ có thể phân biệt giữa chó và mèo bằng cách quan sát hình dáng và hành vi khác nhau của chúng mà không nhất thiết phải biết tên gọi "chó" và "mèo" ngay từ đầu. Tương tự, các thuật toán không giám sát nhóm thông tin dựa trên những điểm tương đồng vốn có. Khả năng này là nền tảng cho sự phát triển của trí tuệ nhân tạo tổng quát (AGI), vì nó cho phép các hệ thống thích nghi với môi trường mới mà không cần sự giám sát liên tục của con người.
Link to this sectionCác kỹ thuật chính trong Học không giám sát#
Học không giám sát bao gồm một số kỹ thuật riêng biệt, mỗi kỹ thuật phù hợp với các loại vấn đề phân tích dữ liệu khác nhau:
- Phân cụm (Clustering): Đây là ứng dụng phổ biến nhất, trong đó thuật toán nhóm các điểm dữ liệu tương tự nhau. Một phương pháp phổ biến là phân cụm K-Means, giúp chia dữ liệu thành k nhóm riêng biệt dựa trên sự tương đồng về đặc trưng. Kỹ thuật này được sử dụng rộng rãi trong phân khúc thị trường để xác định các nhóm khách hàng có hành vi mua sắm tương tự nhau.
- Giảm chiều dữ liệu (Dimensionality Reduction): Dữ liệu nhiều chiều có thể phức tạp và tốn kém tài nguyên tính toán khi xử lý. Các kỹ thuật như Phân tích thành phần chính (PCA) giúp giảm số lượng biến trong một tập dữ liệu trong khi vẫn bảo toàn thông tin thiết yếu. Điều này giúp đơn giản hóa việc trực quan hóa dữ liệu và tăng tốc quá trình huấn luyện các model học máy khác.
- Phát hiện bất thường (Anomaly Detection): Bằng cách tìm hiểu xem dữ liệu "bình thường" trông như thế nào, các model không giám sát có thể xác định các điểm ngoại lai sai lệch đáng kể so với tiêu chuẩn. Điều này rất quan trọng đối với phát hiện gian lận trong tài chính, nơi các mô hình giao dịch bất thường sẽ kích hoạt cảnh báo bảo mật.
- Học quy tắc kết hợp (Association Rule Learning): Kỹ thuật này khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Nó được biết đến nhiều nhất trong phân tích giỏ hàng, giúp các nhà bán lẻ hiểu rằng khách hàng mua bánh mì cũng có khả năng sẽ mua bơ.
Link to this sectionHọc không giám sát so với Học có giám sát#
Điều quan trọng là phải phân biệt được học không giám sát với học có giám sát. Sự khác biệt chính nằm ở dữ liệu được sử dụng. Học có giám sát yêu cầu một tập dữ liệu được gắn nhãn, nghĩa là mỗi ví dụ huấn luyện đều đi kèm với một kết quả đầu ra chính xác (ví dụ: hình ảnh một con mèo được gắn nhãn "mèo"). Model học cách ánh xạ các đầu vào tới đầu ra để giảm thiểu lỗi.
Ngược lại, học không giám sát sử dụng dữ liệu không được gắn nhãn. Không có vòng phản hồi nào cho model biết liệu đầu ra của nó có chính xác hay không. Một điểm trung gian được gọi là học bán giám sát, kết hợp một lượng nhỏ dữ liệu được gắn nhãn với lượng lớn dữ liệu không được gắn nhãn để cải thiện độ chính xác học tập, thường được sử dụng khi việc gắn nhãn dữ liệu trở nên đắt đỏ hoặc tốn thời gian.
Link to this sectionCác ứng dụng trong thực tế#
Học không giám sát cung cấp sức mạnh cho nhiều công nghệ mà chúng ta gặp hàng ngày. Dưới đây là hai ví dụ cụ thể:
-
Phân khúc khách hàng trong bán lẻ: Các nền tảng thương mại điện tử phân tích hàng triệu lượt tương tác của người dùng mà không có danh mục định sẵn. Bằng cách sử dụng các thuật toán phân cụm, họ xác định được các nhóm người dùng riêng biệt—ví dụ như "thợ săn ưu đãi cuối tuần" hoặc "những người đam mê công nghệ". Điều này cho phép thực hiện các chiến dịch tiếp thị được cá nhân hóa cao và các hệ thống gợi ý, giúp cải thiện đáng kể trải nghiệm khách hàng.
-
Phân tích trình tự bộ gen: Trong tin sinh học, các nhà nghiên cứu sử dụng học không giám sát để phân tích dữ liệu di truyền. Các thuật toán phân cụm các trình tự DNA để tìm ra các dấu hiệu di truyền hoặc đột biến tương tự trên các quần thể khác nhau. Điều này giúp hiểu được các mối quan hệ tiến hóa và xác định khuynh hướng di truyền đối với các bệnh mà không cần phải biết trước chức năng của từng gen cụ thể.
Link to this sectionVí dụ về mã: Phân cụm với Scikit-Learn#
Mặc dù Ultralytics YOLO26 chủ yếu là một framework phát hiện đối tượng có giám sát, các kỹ thuật không giám sát thường được sử dụng trong các bước tiền xử lý, chẳng hạn như phân tích phân phối anchor box hoặc phân cụm các đặc trưng của tập dữ liệu. Dưới đây là một ví dụ đơn giản sử dụng sklearn để thực hiện phân cụm K-Means, một kỹ thuật không giám sát cơ bản.
import numpy as np
from sklearn.cluster import KMeans
# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (no labels provided!)
kmeans.fit(X)
# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)Link to this sectionVai trò của Học không giám sát trong Học sâu#
Học sâu (DL) hiện đại ngày càng tích hợp các nguyên tắc không giám sát. Các kỹ thuật như Học tự giám sát (SSL) cho phép các model tự tạo ra tín hiệu giám sát từ chính dữ liệu. Ví dụ, trong Xử lý ngôn ngữ tự nhiên (NLP), các model như GPT-4 được huấn luyện trước trên lượng lớn văn bản để dự đoán từ tiếp theo trong một câu, qua đó học cấu trúc ngôn ngữ một cách hiệu quả mà không cần các nhãn rõ ràng.
Tương tự, trong thị giác máy tính (CV), các autoencoder được sử dụng để học cách mã hóa dữ liệu hiệu quả. Các mạng thần kinh này nén hình ảnh thành biểu diễn có số chiều thấp hơn rồi tái tạo lại chúng. Quá trình này dạy cho mạng lưới các đặc trưng nổi bật nhất của dữ liệu hình ảnh, rất hữu ích cho các tác vụ như khử nhiễu hình ảnh và tạo mô hình sinh.
Đối với những người đang tìm cách quản lý tập dữ liệu để huấn luyện, Nền tảng Ultralytics cung cấp các công cụ để trực quan hóa phân phối dữ liệu, giúp xác định các cụm hoặc điểm bất thường trước khi quá trình huấn luyện có giám sát bắt đầu. Hiểu được cấu trúc dữ liệu của bạn thông qua việc khám phá không giám sát thường là bước đầu tiên để xây dựng các giải pháp AI mạnh mẽ.






