Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học có giám sát

Khám phá cách học có giám sát cung cấp năng lượng cho AI bằng dữ liệu được gắn nhãn, cho phép dự đoán chính xác và các ứng dụng như object detection và phân tích сентимент.

Học có giám sát là một mô hình chủ đạo trong lĩnh vực Học máy (ML), trong đó thuật toán được huấn luyện trên dữ liệu đầu vào đã được gắn nhãn với đầu ra chính xác. Không giống như các phương pháp khác, trong đó hệ thống có thể tự động khám phá dữ liệu, phương pháp này dựa vào một "giám sát viên" - dữ liệu được gắn nhãn - để hướng dẫn quá trình học. Mục tiêu chính là để mô hình học một hàm ánh xạ từ các biến đầu vào đến các biến đầu ra với độ chính xác đủ để có thể dự đoán kết quả cho dữ liệu mới, chưa từng thấy. Phương pháp này đóng vai trò là nền tảng cho nhiều ứng dụng Trí tuệ Nhân tạo (AI) thương mại, từ bộ lọc thư rác đến các hệ thống Thị giác Máy tính (CV) tiên tiến.

Quá trình hoạt động như thế nào

Quy trình làm việc bắt đầu với một tập dữ liệu chứa các cặp đầu vào (tính năng) và đầu ra mong muốn (nhãn). Tập dữ liệu này thường được chia thành các tập con riêng biệt: dữ liệu huấn luyện để dạy mô hình, dữ liệu xác thực để điều chỉnh các tham số và dữ liệu kiểm tra để đánh giá cuối cùng.

Trong giai đoạn huấn luyện mô hình , thuật toán xử lý dữ liệu đầu vào và đưa ra dự đoán. Một công thức toán học được gọi là hàm mất mát sẽ tính toán sự khác biệt giữa dự đoán này và nhãn thực tế. Để giảm thiểu lỗi này, một thuật toán tối ưu hóa , chẳng hạn như giảm dần gradient , sẽ điều chỉnh các trọng số nội tại của mô hình theo từng bước lặp. Chu trình này tiếp tục qua nhiều lần lặp, hay còn gọi là kỷ nguyên , cho đến khi mô hình đạt được hiệu suất mong muốn mà không bị quá khớp với tập huấn luyện. Để tìm hiểu sâu hơn về các cơ chế này, bạn có thể khám phá hướng dẫn về học có giám sát của Scikit-learn .

Các danh mục cốt lõi của học tập có giám sát

Hầu hết các vấn đề học có giám sát đều thuộc hai loại chính dựa trên loại biến đầu ra:

  • Phân loại hình ảnh : Biến đầu ra là một danh mục hoặc lớp. Mục tiêu là dự đoán các nhãn rời rạc, chẳng hạn như xác định xem một email là "thư rác" hay "không phải thư rác", hoặc một bức ảnh có chứa "mèo" hay "chó". Các kiến trúc hiện đại như Ultralytics YOLO11 vượt trội trong các nhiệm vụ phân loại này bằng cách nhanh chóng xác định các mẫu trong dữ liệu trực quan.
  • Hồi quy : Biến đầu ra là một giá trị thực liên tục. Ví dụ bao gồm dự đoán giá bất động sản dựa trên diện tích hoặc dự báo xu hướng thị trường chứng khoán. Bạn có thể tìm hiểu thêm về nền tảng thống kê của các phương pháp này trong bài viết Tổng quan về phân tích hồi quy của IBM .

Triển khai Mô hình Phân loại

Việc đào tạo một mô hình có giám sát ngày càng trở nên dễ tiếp cận hơn với các API cấp cao. Sau đây là Python ví dụ minh họa cách đào tạo một YOLO11 mô hình trên MNIST tập dữ liệu, một chuẩn mực để phân loại chữ số.

from ultralytics import YOLO

# Load a pretrained classification model
model = YOLO("yolo11n-cls.pt")

# Train the model on the MNIST dataset
# Ultralytics handles the download of the 'mnist160' dataset automatically
results = model.train(data="mnist160", epochs=5, imgsz=64)

# Run inference on a sample image to verify the supervised learning
print(model("https://ultralytics.com/images/bus.jpg"))

Các Ứng dụng Thực tế

Học có giám sát hỗ trợ các công nghệ quan trọng trong nhiều ngành công nghiệp khác nhau. Hai ví dụ nổi bật bao gồm:

  1. Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào hệ thống phát hiện vật thể được đào tạo thông qua học có giám sát. Các tập dữ liệu được chú thích chứa hàng ngàn hình ảnh về người đi bộ, đèn giao thông và các phương tiện khác cho phép AI của xe nhận dạng và xác định vị trí nguy hiểm theo thời gian thực. Các công ty như NVIDIA sử dụng học sâu để xử lý các dữ liệu cảm biến khổng lồ này nhằm đảm bảo điều hướng an toàn.
  2. Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, các mô hình được huấn luyện dựa trên các bản quét được dán nhãn bởi các bác sĩ X-quang chuyên khoa để hỗ trợ chẩn đoán. Ví dụ, một mô hình có thể học cách xác định các dấu hiệu sớm của bệnh lý trên phim chụp X-quang hoặc MRI. Các nhà nghiên cứu thường sử dụng các nguồn tài nguyên như bộ dữ liệu Phát hiện Khối u Não để xây dựng các hệ thống hỗ trợ ra quyết định lâm sàng.

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt học có giám sát với các mô hình học máy khác:

  • Học không giám sát : Không giống như học có giám sát, phương pháp này xử lý dữ liệu chưa được gắn nhãn. Mục tiêu là khám phá các cấu trúc ẩn, chẳng hạn như nhóm khách hàng có thói quen mua sắm tương tự thông qua phân tích cụm .
  • Học Tăng cường : Thay vì học từ một tập dữ liệu tĩnh chứa các câu trả lời đúng, tác nhân học bằng cách tương tác với môi trường. Tác nhân nhận được phản hồi dưới dạng phần thưởng hoặc hình phạt, một khái niệm được trình bày chi tiết trong phần giới thiệu về Học Tăng cường của Sutton và Barto .
  • Học bán giám sát : Phương pháp này đóng vai trò trung gian, sử dụng một lượng nhỏ dữ liệu được gắn nhãn cùng với một nhóm lớn dữ liệu chưa được gắn nhãn để cải thiện hiệu quả học tập, thường được sử dụng khi việc gắn nhãn dữ liệu tốn kém hoặc mất nhiều thời gian.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay