Self-Supervised Learning
Khám phá cách học tự giám sát (self-supervised learning) loại bỏ nhu cầu gán nhãn thủ công. Tìm hiểu về các phương pháp SSL tạo sinh và đối kháng để nâng cao Ultralytics YOLO26.
Self-Supervised Learning (SSL) là một mô hình machine learning nơi hệ thống học cách hiểu dữ liệu bằng cách tự tạo ra các tín hiệu giám sát từ chính dữ liệu đó, thay vì dựa vào các nhãn do con người cung cấp. Trong Supervised Learning truyền thống, các model yêu cầu một lượng lớn dữ liệu được gán nhãn thủ công—như hình ảnh được dán nhãn "cat" hoặc "dog"—điều này có thể tốn kém và mất thời gian. SSL vượt qua nút thắt này bằng cách tạo ra các "pretext tasks", nơi model phải dự đoán các phần bị ẩn hoặc thiếu của dữ liệu đầu vào, từ đó tự dạy cho mình cấu trúc và đặc trưng cơ bản cần thiết cho các tác vụ phức tạp như object detection và phân loại.
Link to this sectionCác cơ chế cốt lõi của Self-Supervised Learning#
Ý tưởng cơ bản của SSL là che hoặc ẩn một phần dữ liệu và buộc neural network (NN) phải tái tạo lại hoặc dự đoán mối quan hệ giữa các góc nhìn khác nhau của cùng một dữ liệu. Quá trình này tạo ra các biểu diễn đa năng, phong phú, có thể được fine-tune sau đó cho các ứng dụng cụ thể.
Có hai phương pháp tiếp cận chính trong SSL:
- Generative Methods: Model học cách tạo ra pixel hoặc từ ngữ để điền vào chỗ trống. Một ví dụ điển hình trong Natural Language Processing (NLP) là dự đoán từ tiếp theo trong một câu. Trong computer vision, các kỹ thuật như Masked Autoencoders (MAE) che các mảng ngẫu nhiên của hình ảnh và giao nhiệm vụ cho model tái tạo các pixel bị thiếu, buộc nó phải "hiểu" ngữ cảnh hình ảnh.
- Contrastive Learning: Phương pháp này dạy model cách phân biệt giữa các điểm dữ liệu tương tự và khác biệt. Bằng cách áp dụng các kỹ thuật data augmentation—như cắt, jitter màu, hoặc xoay—vào một hình ảnh, model học được rằng các phiên bản đã chỉnh sửa này đại diện cho cùng một vật thể (cặp dương) trong khi coi các hình ảnh khác là vật thể khác (cặp âm). Các framework phổ biến như SimCLR dựa rất nhiều vào nguyên lý này.
Link to this sectionCác ứng dụng trong thực tế#
Self-supervised learning đã trở thành nền tảng để xây dựng các foundation models mạnh mẽ trên nhiều lĩnh vực. Khả năng tận dụng lượng lớn dữ liệu không gán nhãn giúp phương pháp này có khả năng mở rộng cao.
- Medical Imaging: Việc thu thập các bản quét y tế có dán nhãn chuyên gia rất khó khăn và tốn kém. SSL cho phép các model pre-train trên hàng nghìn bản quét X-quang hoặc MRI không dán nhãn để tìm hiểu các đặc điểm giải phẫu chung. Model đã pre-train này sau đó có thể được fine-tune với một số lượng nhỏ ví dụ có nhãn để đạt độ chính xác cao trong tumor detection hoặc chẩn đoán bệnh.
- Autonomous Driving: Xe tự lái tạo ra hàng terabyte dữ liệu video mỗi ngày. SSL cho phép các hệ thống này học động lực học thời gian và sự hiểu biết không gian từ cảnh quay video thô mà không cần gán nhãn từng khung hình. Điều này giúp cải thiện lane detection và tránh vật cản bằng cách dự đoán các khung hình tương lai hoặc chuyển động của vật thể.
Link to this sectionPhân biệt SSL với các thuật ngữ liên quan#
Điều quan trọng là phải phân biệt SSL với Unsupervised Learning. Mặc dù cả hai phương pháp đều sử dụng dữ liệu không gán nhãn, unsupervised learning thường tập trung vào việc tìm kiếm các mẫu hoặc nhóm ẩn (phân cụm) mà không có tác vụ dự đoán cụ thể. Ngược lại, SSL đóng khung quá trình học tập như một tác vụ có giám sát, trong đó các nhãn được tạo tự động từ chính cấu trúc dữ liệu. Ngoài ra, Semi-Supervised Learning kết hợp một lượng nhỏ dữ liệu có nhãn với một lượng lớn dữ liệu không gán nhãn, trong khi SSL thuần túy tự tạo nhãn hoàn toàn từ tập dữ liệu không gán nhãn trước khi quá trình fine-tuning diễn ra.
Link to this sectionSử dụng Pre-Trained Weights trong Ultralytics#
Trong hệ sinh thái Ultralytics, các model như YOLO26 hưởng lợi đáng kể từ các chiến lược training tiên tiến, thường kết hợp các nguyên lý tương tự như SSL trong giai đoạn pre-training trên các tập dữ liệu khổng lồ như ImageNet hoặc COCO. Điều này đảm bảo rằng khi người dùng triển khai model cho một tác vụ cụ thể, các bộ trích xuất đặc trưng đã sẵn sàng hoạt động ổn định.
Người dùng có thể tận dụng các biểu diễn pre-trained mạnh mẽ này để fine-tune model trên tập dữ liệu tùy chỉnh của riêng họ bằng cách sử dụng Ultralytics Platform.
Đây là một ví dụ ngắn gọn về cách load một model YOLO26 pre-trained và bắt đầu quá trình fine-tune trên một tập dữ liệu mới, tận dụng các tính năng đã học được trong quá trình training quy mô lớn ban đầu:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")
# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)Link to this sectionTương lai của SSL#
Khi các nhà nghiên cứu tại các phòng thí nghiệm lớn như Meta AI và Google DeepMind tiếp tục tinh chỉnh các kỹ thuật này, SSL đang đẩy xa các ranh giới về những gì có thể thực hiện được trong Generative AI và computer vision. Bằng cách giảm sự phụ thuộc vào dữ liệu có nhãn, SSL đang dân chủ hóa quyền truy cập vào AI hiệu suất cao, cho phép các nhóm nhỏ hơn xây dựng các model tinh vi cho các ứng dụng ngách như wildlife conservation hoặc industrial inspection.






