Khám phá cách học bán giám sát kết hợp dữ liệu được gắn nhãn và không được gắn nhãn để nâng cao độ chính xác của mô hình. Tìm hiểu cách triển khai quy trình làm việc SSL bằng cách sử dụng Ultralytics YOLO26.
Học bán giám sát (SSL) là một mô hình chiến lược trong học máy (ML) đóng vai trò cầu nối giữa hai phương pháp huấn luyện truyền thống. Trong khi học giám sát hoàn toàn dựa vào các tập dữ liệu được chú thích đầy đủ và học không giám sát cố gắng tìm ra các mẫu trong dữ liệu mà không cần bất kỳ nhãn nào, SSL hoạt động bằng cách kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu chưa được gắn nhãn . Cách tiếp cận này đặc biệt có giá trị trong các kịch bản thị giác máy tính (CV) thực tế, nơi việc thu thập hình ảnh thô—chẳng hạn như cảnh quay video từ camera an ninh hoặc vệ tinh—tương đối rẻ, nhưng quá trình gắn nhãn dữ liệu bởi các chuyên gia lại tốn kém, chậm và tốn nhiều công sức. Bằng cách sử dụng hiệu quả cấu trúc ẩn bên trong các ví dụ chưa được gắn nhãn, SSL có thể cải thiện đáng kể độ chính xác và khả năng khái quát hóa của mô hình mà không cần ngân sách chú thích quá lớn.
Mục tiêu chính của SSL là truyền tải thông tin tìm thấy trong tập hợp nhỏ các ví dụ đã được gán nhãn đến tập hợp lớn hơn các ví dụ chưa được gán nhãn. Điều này cho phép mạng nơ-ron học được các ranh giới quyết định đi qua các vùng có mật độ dữ liệu thấp, dẫn đến phân loại hoặc phát hiện mạnh mẽ hơn.
Hai kỹ thuật phổ biến chi phối hầu hết các quy trình làm việc bán giám sát:
Sau đây Python Ví dụ này minh họa quy trình gán nhãn giả đơn giản bằng cách sử dụng gói ultralytics . Ở đây, chúng ta huấn luyện mô hình YOLO26 trên một tập dữ liệu nhỏ và sau đó sử dụng nó để tạo nhãn cho một thư mục hình ảnh chưa được gán nhãn.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)
Học bán giám sát đang làm thay đổi các ngành công nghiệp nơi dữ liệu dồi dào nhưng chuyên môn lại khan hiếm.
Để triển khai các giải pháp AI một cách hiệu quả, điều quan trọng là phải hiểu SSL khác biệt như thế nào so với các chiến lược tương tự:
Khi các mô hình học sâu (DL) ngày càng lớn, hiệu quả sử dụng dữ liệu trở nên tối quan trọng. Các framework hiện đại như PyTorch và TensorFlow cung cấp nền tảng tính toán cho các vòng lặp huấn luyện nâng cao này. Hơn nữa, các công cụ như Ultralytics Platform đang đơn giản hóa vòng đời quản lý tập dữ liệu. Bằng cách sử dụng các tính năng như tự động chú thích , các nhóm có thể dễ dàng triển khai các quy trình bán giám sát, nhanh chóng chuyển đổi dữ liệu thô thành trọng số mô hình sẵn sàng cho sản xuất. Sự phát triển này trong MLOps đảm bảo rằng rào cản gia nhập để tạo ra các hệ thống thị giác có độ chính xác cao tiếp tục giảm.
Bắt đầu hành trình của bạn với tương lai của học máy