Học Tự Giám Sát
Khám phá cách học tự giám sát (self-supervised learning) tận dụng dữ liệu không được gắn nhãn để đào tạo hiệu quả, chuyển đổi AI trong thị giác máy tính, NLP và hơn thế nữa.
Học Tự Giám Sát (SSL) là một kỹ thuật học máy cho phép các mô hình học hỏi từ lượng lớn dữ liệu chưa được gắn nhãn. Thay vì dựa vào các nhãn do con người cung cấp, SSL tự động tạo nhãn từ chính dữ liệu bằng cách tạo và giải quyết một "nhiệm vụ tiền văn bản". Quá trình này buộc mô hình phải học các mẫu và đặc điểm cơ bản có ý nghĩa của dữ liệu, chẳng hạn như kết cấu và hình dạng trong hình ảnh hoặc cấu trúc ngữ pháp trong văn bản. Các đặc điểm đã học này tạo ra một nền tảng mạnh mẽ, cho phép mô hình hoạt động đặc biệt tốt trên các nhiệm vụ hạ nguồn với ít dữ liệu được gắn nhãn hơn trong giai đoạn tinh chỉnh. SSL thu hẹp khoảng cách giữa học có giám sát hoàn toàn, vốn rất tốn dữ liệu và học không giám sát thuần túy, có thể ít định hướng hơn.
Cách Học Tự Giám Sát Hoạt Động
Ý tưởng cốt lõi đằng sau SSL là tác vụ tiền đề (pretext task)—một vấn đề tự tạo mà mô hình phải giải quyết. Các nhãn cho tác vụ này được lấy trực tiếp từ dữ liệu đầu vào. Bằng cách giải quyết tác vụ tiền đề, mạng nơ-ron học được các biểu diễn (representation) hoặc embedding có giá trị, nắm bắt các đặc điểm thiết yếu của dữ liệu.
Các tác vụ tiền xử lý phổ biến trong thị giác máy tính bao gồm:
- Dự đoán vòng quay hình ảnh: Mô hình được hiển thị một hình ảnh đã được xoay ngẫu nhiên (ví dụ: 0, 90, 180 hoặc 270 độ) và phải dự đoán góc xoay. Để thực hiện việc này một cách chính xác, nó phải nhận ra hướng ban đầu của đối tượng.
- Vẽ lại Ảnh: Một phần của hình ảnh bị che hoặc bị xóa và mô hình phải dự đoán phần bị thiếu. Điều này khuyến khích mô hình tìm hiểu về ngữ cảnh và kết cấu của hình ảnh.
- Học tương phản: Mô hình được dạy để kéo các biểu diễn của các hình ảnh tương tự (được tăng cường) lại gần nhau hơn và đẩy các biểu diễn của các hình ảnh khác nhau ra xa nhau hơn. Các framework như SimCLR là những ví dụ phổ biến về cách tiếp cận này.
Việc pre-training trên dữ liệu không được gán nhãn này tạo ra trọng số mô hình mạnh mẽ có thể được sử dụng làm điểm khởi đầu cho các tác vụ cụ thể hơn.
SSL so với các mô hình học tập khác
Điều quan trọng là phải phân biệt SSL với các mô hình học máy liên quan:
- Học có giám sát: Hoàn toàn dựa vào dữ liệu được gắn nhãn, trong đó mỗi đầu vào được ghép nối với một đầu ra chính xác. Ngược lại, SSL tạo ra các nhãn của riêng mình từ chính dữ liệu, giảm đáng kể nhu cầu gắn nhãn dữ liệu thủ công.
- Học không giám sát (Unsupervised Learning): Nhằm mục đích tìm kiếm các mẫu (như phân cụm (clustering)) hoặc giảm số chiều trong dữ liệu chưa được gán nhãn mà không có các tác vụ mồi (pretext tasks) được xác định trước. Mặc dù SSL sử dụng dữ liệu chưa được gán nhãn giống như học không giám sát, nhưng nó khác ở chỗ tạo ra các tín hiệu giám sát rõ ràng thông qua các tác vụ mồi để hướng dẫn việc học biểu diễn (representation learning).
- Học Bán Giám Sát: Sử dụng kết hợp một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu chưa được gắn nhãn. Huấn luyện trước SSL thường có thể là một bước sơ bộ trước tinh chỉnh bán giám sát.
- Học tích cực: Tập trung vào việc lựa chọn một cách thông minh các điểm dữ liệu giàu thông tin nhất từ một nhóm chưa được gắn nhãn để được con người gắn nhãn. SSL học từ tất cả dữ liệu chưa được gắn nhãn mà không có sự can thiệp của con người trong vòng lặp. Hai phương pháp này có thể bổ sung cho nhau trong quy trình làm việc AI lấy dữ liệu làm trung tâm.
Các Ứng dụng Thực tế
SSL đã nâng cao đáng kể khả năng Trí tuệ nhân tạo (AI) trong nhiều lĩnh vực khác nhau:
- Cải tiến Mô hình Thị giác Máy tính: Huấn luyện trước SSL cho phép các mô hình như Ultralytics YOLO học các đặc trưng hình ảnh mạnh mẽ từ các bộ dữ liệu hình ảnh khổng lồ chưa được gắn nhãn trước khi được tinh chỉnh cho các tác vụ như phát hiện đối tượng trong xe tự hành hoặc phân tích hình ảnh y tế. Sử dụng trọng số được huấn luyện trước có nguồn gốc từ SSL thường dẫn đến hiệu suất tốt hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình.
- Cung cấp sức mạnh cho các Mô hình Ngôn ngữ Lớn (LLM): Các mô hình nền tảng như GPT-4 và BERT phụ thuộc rất nhiều vào các tác vụ tiền huấn luyện SSL (như mô hình hóa ngôn ngữ che mặt) trong giai đoạn tiền huấn luyện trên các kho ngữ liệu văn bản khổng lồ. Điều này cho phép chúng hiểu cấu trúc ngôn ngữ, ngữ pháp và ngữ cảnh, cung cấp sức mạnh cho các ứng dụng từ chatbot phức tạp và dịch máy đến tóm tắt văn bản.
SSL giảm đáng kể sự phụ thuộc vào các bộ dữ liệu được gắn nhãn đắt tiền, dân chủ hóa việc phát triển các mô hình AI mạnh mẽ. Các công cụ như PyTorch và TensorFlow, cùng với các nền tảng như Ultralytics HUB, cung cấp môi trường để tận dụng các kỹ thuật SSL để xây dựng và triển khai các giải pháp AI tiên tiến. Bạn có thể tìm thấy nghiên cứu mới nhất về SSL tại các hội nghị AI hàng đầu như NeurIPS và ICML.