Khám phá cách Học bán giám sát kết hợp dữ liệu được gắn nhãn và không được gắn nhãn để nâng cao các mô hình AI, giảm chi phí gắn nhãn và tăng độ chính xác.
Học bán giám sát (SSL) là một mô hình mạnh mẽ trong học máy (ML) , giúp thu hẹp khoảng cách giữa học có giám sát hoàn toàn và học không giám sát . Trong khi các phương pháp có giám sát yêu cầu các tập dữ liệu được chú thích đầy đủ và các phương pháp không giám sát hoạt động hoàn toàn mà không cần nhãn, SSL hoạt động bằng cách tận dụng một lượng nhỏ dữ liệu đã được gắn nhãn cùng với một lượng lớn dữ liệu chưa được gắn nhãn. Trong nhiều tình huống thực tế, việc thu thập dữ liệu thô tương đối rẻ, nhưng quá trình gắn nhãn dữ liệu lại tốn kém, mất thời gian và đòi hỏi chuyên môn của con người. SSL giải quyết nút thắt này bằng cách sử dụng các ví dụ được gắn nhãn hạn chế để hướng dẫn quá trình học, cho phép mô hình trích xuất cấu trúc và mẫu từ các phân đoạn chưa được gắn nhãn rộng lớn, do đó cải thiện độ chính xác và khả năng khái quát hóa tổng thể của mô hình .
Cơ chế cơ bản đằng sau SSL liên quan đến việc truyền thông tin từ dữ liệu đã được gán nhãn sang dữ liệu chưa được gán nhãn. Quá trình này thường bắt đầu bằng việc huấn luyện một mô hình ban đầu trên tập dữ liệu nhỏ đã được gán nhãn. Mô hình này sau đó được sử dụng để suy ra các dự đoán trên dữ liệu chưa được gán nhãn. Các dự đoán chắc chắn nhất - thường được gọi là nhãn giả - được coi là dữ liệu nền, và mô hình được huấn luyện lại trên tập dữ liệu mở rộng này. Chu trình lặp này cho phép mạng nơ-ron học các ranh giới quyết định mạnh mẽ hơn so với các ranh giới được học chỉ từ dữ liệu đã được gán nhãn.
Các kỹ thuật phổ biến được sử dụng trong SSL bao gồm:
Học bán giám sát đặc biệt có tính chuyển đổi trong các ngành công nghiệp nơi dữ liệu dồi dào nhưng chú thích của chuyên gia lại khan hiếm.
Để hiểu đầy đủ về SSL, bạn cần phân biệt nó với các mô hình học tập tương tự:
Việc triển khai quy trình làm việc bán giám sát thường liên quan đến vòng lặp "giáo viên-học sinh" hoặc đào tạo lặp đi lặp lại. Dưới đây là một ví dụ khái niệm sử dụng ultralytics Python gói để chứng minh cách người ta có thể suy ra dữ liệu chưa được gắn nhãn để tạo ra các dự đoán có thể dùng làm nhãn giả cho quá trình đào tạo tiếp theo.
from ultralytics import YOLO
# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")
# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)
# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.
Các nền tảng học sâu như PyTorch và TensorFlow cung cấp các khối xây dựng cần thiết để triển khai các vòng lặp SSL và hàm mất mát tùy chỉnh. Khi các mô hình ngày càng lớn và ngốn nhiều dữ liệu, các kỹ thuật như SSL đang trở thành thông lệ tiêu chuẩn để tối đa hóa hiệu quả dữ liệu.
Sắp tới Ultralytics Nền tảng được thiết kế để hợp lý hóa các quy trình công việc như thế này, giúp các nhóm quản lý quá trình chuyển đổi từ dữ liệu thô sang triển khai mô hình bằng cách tạo điều kiện thuận lợi cho quy trình quản lý dữ liệu và chú thích tự động . Bằng cách sử dụng hiệu quả dữ liệu chưa được gắn nhãn, các tổ chức có thể triển khai các giải pháp AI hiệu suất cao như YOLO11 nhanh hơn và tiết kiệm chi phí hơn so với việc chỉ dựa vào các phương pháp giám sát đơn thuần.