Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học không giám sát

Khám phá học không giám sát để tìm ra các mẫu ẩn trong dữ liệu chưa được gắn nhãn. Tìm hiểu về phân cụm, phát hiện bất thường và cách chúng thúc đẩy các giải pháp AI hiện đại.

Học không giám sát là một loại học máy trong đó thuật toán học các mẫu từ dữ liệu chưa được gắn nhãn mà không cần sự can thiệp của con người. Không giống như học có giám sát, dựa vào các cặp đầu vào-đầu ra được gắn nhãn để huấn luyện mô hình, học không giám sát xử lý dữ liệu không có nhãn lịch sử. Về cơ bản, hệ thống cố gắng tự học bằng cách khám phá các cấu trúc, mẫu hoặc mối quan hệ ẩn trong dữ liệu đầu vào. Phương pháp này đặc biệt có giá trị vì phần lớn dữ liệu được tạo ra ngày nay—hình ảnh, video, văn bản và nhật ký cảm biến—đều không có cấu trúc và không được gắn nhãn.

Cách thức hoạt động của học không giám sát

Trong các kịch bản không giám sát, thuật toán được để tự vận hành để khám phá các cấu trúc thú vị trong dữ liệu. Mục tiêu thường là mô hình hóa phân bố cơ bản của dữ liệu hoặc tìm hiểu thêm về chính dữ liệu đó. Bởi vì không có "câu trả lời chính xác" nào được cung cấp trong quá trình huấn luyện, mô hình không thể được đánh giá về độ chính xác theo nghĩa truyền thống. Thay vào đó, hiệu suất thường được đo bằng mức độ hiệu quả của mô hình trong việc giảm chiều dữ liệu hoặc nhóm các điểm dữ liệu tương tự lại với nhau.

Phương pháp này phản ánh cách con người thường học các khái niệm mới. Ví dụ, một đứa trẻ có thể phân biệt giữa chó và mèo bằng cách quan sát hình dạng và hành vi khác nhau của chúng mà không nhất thiết phải biết tên "chó" và "mèo" ngay từ đầu. Tương tự, các thuật toán không giám sát nhóm thông tin dựa trên những điểm tương đồng vốn có. Khả năng này là nền tảng cho sự phát triển của trí tuệ nhân tạo tổng quát (AGI) , vì nó cho phép các hệ thống thích ứng với môi trường mới mà không cần sự giám sát liên tục của con người.

Các kỹ thuật chính trong học không giám sát

Học không giám sát bao gồm một số kỹ thuật khác nhau, mỗi kỹ thuật phù hợp với các loại bài toán phân tích dữ liệu khác nhau:

  • Phân cụm: Đây là ứng dụng phổ biến nhất, trong đó thuật toán nhóm các điểm dữ liệu tương tự nhau. Một phương pháp phổ biến là phân cụm K-Means , phân chia dữ liệu thành k nhóm riêng biệt dựa trên sự tương đồng về đặc điểm. Phương pháp này được sử dụng rộng rãi trong phân khúc thị trường để xác định các nhóm khách hàng có hành vi mua hàng tương tự.
  • Giảm chiều dữ liệu: Dữ liệu đa chiều có thể phức tạp và tốn nhiều tài nguyên tính toán để xử lý. Các kỹ thuật như Phân tích thành phần chính (PCA) giúp giảm số lượng biến trong tập dữ liệu trong khi vẫn bảo toàn thông tin thiết yếu. Điều này giúp đơn giản hóa việc trực quan hóa dữ liệu và tăng tốc quá trình huấn luyện các mô hình máy học khác.
  • Phát hiện bất thường: Bằng cách học cách nhận biết dữ liệu "bình thường", các mô hình không giám sát có thể xác định các điểm dữ liệu ngoại lai lệch đáng kể so với chuẩn mực. Điều này rất quan trọng đối với việc phát hiện gian lận trong lĩnh vực tài chính , nơi các mô hình giao dịch bất thường kích hoạt cảnh báo bảo mật.
  • Học luật liên kết: Kỹ thuật này khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Nó nổi tiếng được sử dụng trong phân tích giỏ hàng, giúp các nhà bán lẻ hiểu rằng khách hàng mua bánh mì cũng có khả năng mua bơ.

Học không giám sát so với học có giám sát

Điều quan trọng là phải phân biệt giữa học không giám sáthọc có giám sát . Sự khác biệt chính nằm ở dữ liệu được sử dụng. Học có giám sát yêu cầu một tập dữ liệu được gán nhãn , nghĩa là mỗi ví dụ huấn luyện được ghép nối với một đầu ra chính xác (ví dụ: hình ảnh một con mèo được gán nhãn "mèo"). Mô hình học cách ánh xạ đầu vào đến đầu ra để giảm thiểu lỗi.

Ngược lại, học không giám sát sử dụng dữ liệu không được gắn nhãn. Không có vòng phản hồi nào cho mô hình biết liệu đầu ra của nó có chính xác hay không. Một giải pháp trung gian gọi là học bán giám sát , kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn để cải thiện độ chính xác của quá trình học, thường được sử dụng khi việc gắn nhãn dữ liệu tốn kém hoặc mất nhiều thời gian.

Các Ứng dụng Thực tế

Học không giám sát là nền tảng của nhiều công nghệ mà chúng ta gặp hàng ngày. Dưới đây là hai ví dụ cụ thể:

  1. Phân khúc khách hàng trong ngành bán lẻ: Các nền tảng thương mại điện tử phân tích hàng triệu lượt tương tác của người dùng mà không có các danh mục được xác định trước. Bằng cách sử dụng các thuật toán phân cụm, họ xác định các nhóm người dùng riêng biệt—chẳng hạn như "người săn hàng giảm giá cuối tuần" hoặc "người đam mê công nghệ". Điều này cho phép thực hiện các chiến dịch tiếp thị và hệ thống đề xuất được cá nhân hóa cao, cải thiện đáng kể trải nghiệm của khách hàng.
  2. Phân tích trình tự gen: Trong tin sinh học, các nhà nghiên cứu sử dụng học không giám sát để phân tích dữ liệu di truyền. Các thuật toán nhóm các trình tự DNA để tìm ra các dấu ấn di truyền hoặc đột biến tương tự giữa các quần thể khác nhau. Điều này giúp hiểu được mối quan hệ tiến hóa và xác định khuynh hướng di truyền đối với các bệnh mà không cần có kiến ​​thức trước đó về chức năng của từng gen cụ thể.

Ví dụ mã: Phân cụm với Scikit-Learn

Trong khi Ultralytics YOLO26 Về cơ bản, đây là một framework phát hiện đối tượng có giám sát, nhưng các kỹ thuật không giám sát thường được sử dụng trong các bước tiền xử lý, chẳng hạn như phân tích phân bố hộp neo hoặc phân cụm các đặc trưng của tập dữ liệu. Dưới đây là một ví dụ đơn giản sử dụng sklearn Để thực hiện phân cụm K-Means, một kỹ thuật cơ bản không giám sát.

import numpy as np
from sklearn.cluster import KMeans

# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")

# Fit the model to the data (no labels provided!)
kmeans.fit(X)

# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)

Vai trò của học không giám sát trong học sâu

Học sâu (DL) hiện đại ngày càng tích hợp các nguyên tắc không giám sát. Các kỹ thuật như Học tự giám sát (SSL) cho phép các mô hình tự tạo ra tín hiệu giám sát từ dữ liệu. Ví dụ, trong Xử lý ngôn ngữ tự nhiên (NLP) , các mô hình như GPT-4 được huấn luyện trước trên một lượng lớn văn bản để dự đoán từ tiếp theo trong câu, từ đó học được cấu trúc ngôn ngữ mà không cần nhãn rõ ràng.

Tương tự, trong thị giác máy tính (CV) , các bộ mã hóa tự động (autoencoder) được sử dụng để học các mã hóa dữ liệu hiệu quả. Các mạng nơ-ron này nén hình ảnh thành dạng biểu diễn có chiều thấp hơn và sau đó tái tạo lại chúng. Quá trình này dạy cho mạng những đặc điểm nổi bật nhất của dữ liệu hình ảnh, điều này hữu ích cho các tác vụ như khử nhiễu ảnh và mô hình tạo sinh.

Đối với những ai muốn quản lý tập dữ liệu để huấn luyện, Nền tảng Ultralytics cung cấp các công cụ để trực quan hóa phân bố dữ liệu, giúp xác định các cụm hoặc bất thường trước khi quá trình huấn luyện có giám sát bắt đầu. Hiểu cấu trúc dữ liệu của bạn thông qua khám phá không giám sát thường là bước đầu tiên để xây dựng các giải pháp AI mạnh mẽ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay