Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Tự Giám Sát

Khám phá cách học tự giám sát (self-supervised learning) tận dụng dữ liệu không được gắn nhãn để đào tạo hiệu quả, chuyển đổi AI trong thị giác máy tính, NLP và hơn thế nữa.

Học Tự Giám Sát (SSL) là một phương pháp tiếp cận mang tính đột phá trong lĩnh vực Trí tuệ Nhân tạo (AI) , cho phép các hệ thống học từ dữ liệu chưa được gắn nhãn mà không cần sự chú thích rõ ràng của con người. Không giống như Học Có Giám Sát truyền thống, vốn phụ thuộc rất nhiều vào các tập dữ liệu lớn chứa các ví dụ được gắn nhãn thủ công, SSL tự suy ra các tín hiệu giám sát trực tiếp từ chính dữ liệu. Bằng cách tạo và giải quyết các "nhiệm vụ giả định" - chẳng hạn như điền từ còn thiếu trong câu hoặc dự đoán độ xoay của hình ảnh - mô hình sẽ học cách hiểu cấu trúc, ngữ cảnh và các đặc điểm cơ bản của dữ liệu đầu vào. Khả năng này rất quan trọng để phát triển các Mô hình Nền tảng mạnh mẽ, có thể được điều chỉnh cho nhiều tác vụ tiếp theo với mức đào tạo bổ sung tối thiểu.

Cách Học Tự Giám Sát Hoạt Động

Cơ chế cốt lõi của SSL bao gồm việc loại bỏ một phần dữ liệu khả dụng và giao cho Mạng Nơ-ron (NN) nhiệm vụ tái cấu trúc dữ liệu đó. Quá trình này buộc mô hình phải học các biểu diễn hoặc nhúng chất lượng cao, nắm bắt được ý nghĩa ngữ nghĩa. Có hai loại nhiệm vụ tiền đề chính được sử dụng trong nghiên cứu và công nghiệp:

  • Phương pháp sinh: Mô hình sửa chữa dữ liệu bị hỏng hoặc bị che khuất. Ví dụ, trong Xử lý Ngôn ngữ Tự nhiên (NLP) , các mô hình như BERT che giấu các từ cụ thể và cố gắng dự đoán chúng dựa trên ngữ cảnh xung quanh. Trong thị giác máy tính, các kỹ thuật như Bộ mã hóa Tự động Che khuất (MAE) loại bỏ các mảng khỏi ảnh và tái tạo các điểm ảnh bị mất.
  • Học tương phản: Phương pháp này dạy mô hình phân biệt các điểm dữ liệu giống nhau và khác nhau. Các thuật toán như SimCLR áp dụng tăng cường dữ liệu (cắt xén, làm nhiễu màu) cho một hình ảnh và huấn luyện mạng để nhận ra rằng các phiên bản đã sửa đổi này đại diện cho cùng một đối tượng, đồng thời loại bỏ các biểu diễn của các hình ảnh khác nhau.

Các Ứng dụng Thực tế

Học tập tự giám sát đã cách mạng hóa các ngành công nghiệp bằng cách khai phá giá trị của các tập dữ liệu khổng lồ, chưa được quản lý. Dưới đây là hai ví dụ cụ thể về tác động của nó:

  1. Phân tích hình ảnh y tế : Việc thu thập dữ liệu y tế được gắn nhãn rất tốn kém và đòi hỏi các bác sĩ X-quang chuyên môn. SSL cho phép các mô hình được huấn luyện trước trên hàng nghìn ảnh chụp X-quang hoặc MRI chưa được gắn nhãn để học các đặc điểm giải phẫu chung. Việc huấn luyện trước này giúp tăng đáng kể hiệu suất khi mô hình sau đó được tinh chỉnh trên một tập dữ liệu nhỏ đã được gắn nhãn cho các tác vụ cụ thể như phát hiện khối u , cải thiện độ chính xác của chẩn đoán với sự giám sát hạn chế.
  2. Xe tự hành : Xe tự lái tạo ra hàng terabyte dữ liệu video mỗi ngày. Việc gắn nhãn cho từng khung hình là bất khả thi. SSL cho phép các hệ thống này học động lực học thời gian và ước tính độ sâu từ nguồn cấp dữ liệu video thô bằng cách dự đoán các khung hình trong tương lai hoặc đánh giá tính nhất quán của vật thể theo thời gian. Điều này giúp cải thiện khả năng theo dõi vật thể và hiểu biết về môi trường mà không cần sự can thiệp liên tục của con người.

Phân biệt SSL với các khái niệm liên quan

Để hiểu đầy đủ về SSL, bạn cần phân biệt nó với các mô hình học tập tương tự:

  • So với Học Không Giám Sát: Mặc dù cả hai đều sử dụng dữ liệu không có nhãn, Học Không Giám Sát thường tập trung vào việc tìm kiếm các mẫu ẩn, chẳng hạn như phân cụm khách hàng hoặc giảm chiều. SSL đặc biệt hướng đến việc học các biểu diễn có thể chuyển giao cho các tác vụ khác, hoạt động hiệu quả giống như học có giám sát nhưng với nhãn tự tạo.
  • So với Học bán giám sát: Học bán giám sát kết hợp một lượng nhỏ dữ liệu đã được gắn nhãn với một lượng lớn dữ liệu chưa được gắn nhãn trong cùng một giai đoạn huấn luyện. Ngược lại, SSL thường được sử dụng như một bước "tiền huấn luyện" hoàn toàn trên dữ liệu chưa được gắn nhãn, sau đó được tinh chỉnh trên dữ liệu đã được gắn nhãn.

Tận dụng các mô hình được đào tạo trước

Trên thực tế, hầu hết các nhà phát triển sử dụng SSL bằng cách tận dụng các trọng số mô hình đã được đào tạo trước trên các tập dữ liệu lớn. Ví dụ: kiến trúc YOLO11 Ultralytics được hưởng lợi từ khả năng trích xuất tính năng chuyên sâu được mài giũa thông qua quá trình đào tạo chuyên sâu. Trong khi YOLO được giám sát, khái niệm học chuyển giao—lấy một mô hình hiểu các đặc điểm trực quan và áp dụng nó vào một nhiệm vụ mới—là lợi ích hạ nguồn chính của nghiên cứu SSL.

Sau đây là Python Ví dụ minh họa cách tải một mô hình đã được đào tạo trước và tinh chỉnh nó trên một tập dữ liệu cụ thể. Quy trình làm việc này dựa trên các biểu diễn đặc trưng đã học được trong giai đoạn đào tạo trước ban đầu.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (weights act as the learned representation)
model = YOLO("yolo11n.pt")

# Fine-tune the model on a specific task, leveraging its existing visual knowledge
# This transfer learning process is highly efficient due to robust pre-training
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Perform inference to verify the model detects objects correctly
model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Tương lai của việc học tự giám sát

Khi các nhà nghiên cứu thúc đẩy các mô hình học tập giống con người hơn - thông qua quan sát thay vì học thuộc lòng - SSL vẫn dẫn đầu trong đổi mới. Các phòng thí nghiệm nghiên cứu lớn, bao gồm Google DeepMindMeta AI , tiếp tục công bố những đột phá giúp giảm sự phụ thuộc vào dữ liệu được gắn nhãn. Ultralytics , chúng tôi đang tích hợp những tiến bộ này vào hoạt động R&D của mình cho YOLO26 , nhằm mục đích cung cấp các mô hình nhanh hơn, nhỏ hơn và chính xác hơn, có thể khái quát hóa hiệu quả trên nhiều tác vụ Thị giác máy tính (CV) khác nhau. Các công cụ như PyTorch và các công cụ sắp ra mắt Ultralytics Nền tảng đang giúp việc triển khai các khả năng tiên tiến này trong môi trường sản xuất thực tế trở nên dễ dàng hơn bao giờ hết.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay