Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Tự Giám Sát

Khám phá cách học tự giám sát loại bỏ nhu cầu gắn nhãn thủ công. Tìm hiểu về các phương pháp SSL tạo sinh và tương phản để nâng cao khả năng học tập. Ultralytics YOLO26.

Học tự giám sát (Self-Supervised Learning - SSL) là một mô hình học máy trong đó hệ thống học cách hiểu dữ liệu bằng cách tự tạo ra các tín hiệu giám sát từ chính dữ liệu đó, thay vì dựa vào các nhãn do con người cung cấp từ bên ngoài. Trong học có giám sát truyền thống, các mô hình yêu cầu một lượng lớn dữ liệu được chú thích thủ công—chẳng hạn như hình ảnh được gắn nhãn "mèo" hoặc "chó"—điều này có thể tốn kém và mất thời gian để tạo ra. SSL khắc phục được nút thắt cổ chai này bằng cách tạo ra "các nhiệm vụ giả định" trong đó mô hình phải dự đoán các phần bị ẩn hoặc bị thiếu của dữ liệu đầu vào, từ đó tự học được cấu trúc và các đặc điểm cơ bản cần thiết cho các nhiệm vụ phức tạp như phát hiện và phân loại đối tượng .

Các cơ chế cốt lõi của học tập tự giám sát

Ý tưởng cơ bản đằng sau SSL là che giấu một phần dữ liệu và buộc mạng nơ-ron (NN) phải tái tạo lại phần dữ liệu đó hoặc dự đoán mối quan hệ giữa các góc nhìn khác nhau của cùng một dữ liệu. Quá trình này tạo ra các biểu diễn đa năng, phong phú, có thể được tinh chỉnh sau này cho các ứng dụng cụ thể khác.

Trong SSL có hai phương pháp chính:

  • Phương pháp tạo sinh: Mô hình học cách tạo ra các điểm ảnh hoặc từ ngữ để điền vào chỗ trống. Một ví dụ kinh điển trong Xử lý ngôn ngữ tự nhiên (NLP) là dự đoán từ tiếp theo trong một câu. Trong thị giác máy tính, các kỹ thuật như Bộ mã hóa tự động có mặt nạ (MAE) làm mờ các mảng ngẫu nhiên của hình ảnh và giao nhiệm vụ cho mô hình tái tạo các điểm ảnh bị thiếu, buộc nó phải "hiểu" ngữ cảnh hình ảnh.
  • Học tương phản: Phương pháp này dạy mô hình phân biệt giữa các điểm dữ liệu tương tự và không tương tự. Bằng cách áp dụng các kỹ thuật tăng cường dữ liệu —như cắt xén, làm nhiễu màu hoặc xoay—vào một hình ảnh, mô hình học được rằng các phiên bản đã được sửa đổi này đại diện cho cùng một đối tượng (cặp tích cực) trong khi coi các hình ảnh khác là các đối tượng khác nhau (cặp tiêu cực). Các framework phổ biến như SimCLR dựa rất nhiều vào nguyên tắc này.

Các Ứng dụng Thực tế

Học tự giám sát đã trở thành nền tảng quan trọng để xây dựng các mô hình cơ bản mạnh mẽ trong nhiều lĩnh vực khác nhau. Khả năng tận dụng lượng lớn dữ liệu chưa được gắn nhãn giúp nó có khả năng mở rộng cao.

  • Hình ảnh y tế: Việc thu thập các hình ảnh quét y tế được chuyên gia dán nhãn rất khó khăn và tốn kém. SSL cho phép các mô hình được huấn luyện trước trên hàng nghìn hình ảnh X-quang hoặc MRI chưa được dán nhãn để học các đặc điểm giải phẫu tổng quát. Mô hình được huấn luyện trước này sau đó có thể được tinh chỉnh với một số lượng nhỏ các ví dụ được dán nhãn để đạt được độ chính xác cao trong phát hiện khối u hoặc chẩn đoán bệnh.
  • Lái xe tự hành: Xe tự lái tạo ra hàng terabyte dữ liệu video mỗi ngày. SSL cho phép các hệ thống này học hỏi động lực học thời gian và hiểu biết không gian từ các đoạn video thô mà không cần chú thích từng khung hình. Điều này giúp cải thiện khả năng phát hiện làn đường và tránh chướng ngại vật bằng cách dự đoán các khung hình hoặc chuyển động của vật thể trong tương lai.

Phân biệt SSL với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt Học bán giám sát (SSL) với Học không giám sát . Mặc dù cả hai phương pháp đều sử dụng dữ liệu chưa được gắn nhãn, nhưng học không giám sát thường tập trung vào việc tìm kiếm các mẫu hoặc nhóm ẩn (phân cụm) mà không có nhiệm vụ dự đoán cụ thể. Ngược lại, SSL định hình quá trình học tập như một nhiệm vụ có giám sát, trong đó các nhãn được tạo tự động từ cấu trúc dữ liệu. Ngoài ra, Học bán giám sát kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu chưa được gắn nhãn, trong khi SSL thuần túy tạo ra các nhãn hoàn toàn từ tập dữ liệu chưa được gắn nhãn trước khi tinh chỉnh.

Sử dụng tạ đã được huấn luyện trước trong Ultralytics

Trong Ultralytics Trong hệ sinh thái này, các mô hình như YOLO26 được hưởng lợi đáng kể từ các chiến lược huấn luyện nâng cao thường kết hợp các nguyên tắc tương tự như SSL trong giai đoạn tiền huấn luyện trên các tập dữ liệu khổng lồ như ImageNet hoặc COCO . Điều này đảm bảo rằng khi người dùng triển khai mô hình cho một nhiệm vụ cụ thể, các bộ trích xuất đặc trưng đã đủ mạnh mẽ.

Người dùng có thể tận dụng các mô hình được huấn luyện trước mạnh mẽ này để tinh chỉnh các mô hình trên tập dữ liệu tùy chỉnh của riêng họ bằng cách sử dụng Nền tảng Ultralytics .

Dưới đây là một ví dụ ngắn gọn về cách tải mô hình YOLO26 đã được huấn luyện trước và bắt đầu tinh chỉnh nó trên một tập dữ liệu mới, tận dụng các tính năng đã học được trong quá trình huấn luyện quy mô lớn ban đầu:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")

# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

Tương lai của SSL

Trong khi các nhà nghiên cứu tại các phòng thí nghiệm lớn như Meta AIGoogle DeepMind tiếp tục hoàn thiện các kỹ thuật này, SSL đang thúc đẩy ranh giới của những gì có thể đạt được trong Trí tuệ nhân tạo tạo sinh và thị giác máy tính. Bằng cách giảm sự phụ thuộc vào dữ liệu được gắn nhãn, SSL đang dân chủ hóa quyền truy cập vào AI hiệu năng cao, cho phép các nhóm nhỏ hơn xây dựng các mô hình phức tạp cho các ứng dụng chuyên biệt như bảo tồn động vật hoang dã hoặc kiểm tra công nghiệp .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay