Khám phá cách học có giám sát cung cấp năng lượng cho AI bằng dữ liệu được gắn nhãn, cho phép dự đoán chính xác và các ứng dụng như object detection và phân tích сентимент.
Học có giám sát là một mô hình chủ đạo trong lĩnh vực Học máy (ML), trong đó thuật toán được huấn luyện trên dữ liệu đầu vào đã được gắn nhãn với đầu ra chính xác. Không giống như các phương pháp khác, trong đó hệ thống có thể tự động khám phá dữ liệu, phương pháp này dựa vào một "giám sát viên" - dữ liệu được gắn nhãn - để hướng dẫn quá trình học. Mục tiêu chính là để mô hình học một hàm ánh xạ từ các biến đầu vào đến các biến đầu ra với độ chính xác đủ để có thể dự đoán kết quả cho dữ liệu mới, chưa từng thấy. Phương pháp này đóng vai trò là nền tảng cho nhiều ứng dụng Trí tuệ Nhân tạo (AI) thương mại, từ bộ lọc thư rác đến các hệ thống Thị giác Máy tính (CV) tiên tiến.
Quy trình làm việc bắt đầu với một tập dữ liệu chứa các cặp đầu vào (tính năng) và đầu ra mong muốn (nhãn). Tập dữ liệu này thường được chia thành các tập con riêng biệt: dữ liệu huấn luyện để dạy mô hình, dữ liệu xác thực để điều chỉnh các tham số và dữ liệu kiểm tra để đánh giá cuối cùng.
Trong giai đoạn huấn luyện mô hình , thuật toán xử lý dữ liệu đầu vào và đưa ra dự đoán. Một công thức toán học được gọi là hàm mất mát sẽ tính toán sự khác biệt giữa dự đoán này và nhãn thực tế. Để giảm thiểu lỗi này, một thuật toán tối ưu hóa , chẳng hạn như giảm dần gradient , sẽ điều chỉnh các trọng số nội tại của mô hình theo từng bước lặp. Chu trình này tiếp tục qua nhiều lần lặp, hay còn gọi là kỷ nguyên , cho đến khi mô hình đạt được hiệu suất mong muốn mà không bị quá khớp với tập huấn luyện. Để tìm hiểu sâu hơn về các cơ chế này, bạn có thể khám phá hướng dẫn về học có giám sát của Scikit-learn .
Hầu hết các vấn đề học có giám sát đều thuộc hai loại chính dựa trên loại biến đầu ra:
Việc đào tạo một mô hình có giám sát ngày càng trở nên dễ tiếp cận hơn với các API cấp cao. Sau đây là Python ví dụ minh họa cách đào tạo một YOLO11 mô hình trên MNIST tập dữ liệu, một chuẩn mực để phân loại chữ số.
from ultralytics import YOLO
# Load a pretrained classification model
model = YOLO("yolo11n-cls.pt")
# Train the model on the MNIST dataset
# Ultralytics handles the download of the 'mnist160' dataset automatically
results = model.train(data="mnist160", epochs=5, imgsz=64)
# Run inference on a sample image to verify the supervised learning
print(model("https://ultralytics.com/images/bus.jpg"))
Học có giám sát hỗ trợ các công nghệ quan trọng trong nhiều ngành công nghiệp khác nhau. Hai ví dụ nổi bật bao gồm:
Điều quan trọng là phải phân biệt học có giám sát với các mô hình học máy khác: