Khám phá sức mạnh của học tương phản (contrastive learning), một kỹ thuật tự giám sát (self-supervised) để biểu diễn dữ liệu mạnh mẽ với dữ liệu được gắn nhãn tối thiểu.
Học tương phản là một kỹ thuật học máy (ML) mạnh mẽ, cho phép các mô hình học các biểu diễn dữ liệu mạnh mẽ mà không cần nhãn thủ công. Bằng cách dạy mạng nơ-ron phân biệt các điểm dữ liệu tương tự và khác biệt, phương pháp này cho phép các thuật toán hiểu được cấu trúc cơ bản của một tập dữ liệu. Thay vì dự đoán trực tiếp một danh mục cụ thể, mô hình học bằng cách so sánh các cặp ví dụ, kéo các biểu diễn của các mục liên quan - được gọi là cặp dương - lại gần nhau hơn trong không gian nhúng , đồng thời đẩy các mục không liên quan - cặp âm - ra xa nhau hơn. Khả năng này biến nó thành nền tảng của học tự giám sát hiện đại, cho phép các nhà phát triển tận dụng lượng lớn dữ liệu chưa được gắn nhãn.
Cơ chế cốt lõi của học tương phản xoay quanh khái niệm phân biệt trường hợp. Quá trình đào tạo thường bao gồm ba thành phần chính: tăng cường dữ liệu, mạng mã hóa và hàm mất mát tương phản.
Các biểu diễn học được thông qua phương pháp đối chiếu có khả năng chuyển giao cao sang các nhiệm vụ tiếp theo.
Hiểu được sự khác biệt giữa phương pháp học tương phản và các mô hình khác sẽ hữu ích cho việc lựa chọn phương pháp phù hợp.
Mặc dù việc huấn luyện một vòng lặp tương phản đầy đủ đòi hỏi khối lượng tính toán đáng kể, bạn có thể tận dụng các mô hình đã học được các đặc điểm mạnh mẽ thông qua các kỹ thuật tiền huấn luyện tương tự. Ví dụ sau minh họa việc tải một mô hình phân loại hình ảnh đã được huấn luyện trước để xử lý hình ảnh, sử dụng các khả năng trích xuất đặc điểm cơ bản được tối ưu hóa trong quá trình huấn luyện.
from ultralytics import YOLO
# Load a pre-trained YOLO11 classification model
# The backbone of this model has learned to extract powerful features
model = YOLO("yolo11n-cls.pt")
# Run inference on a sample image
# This process utilizes the learned feature embeddings to predict the class
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top predicted class names
print(results[0].names[results[0].probs.top1])
Mặc dù thành công, học tương phản vẫn gặp phải nhiều thách thức. Nó đòi hỏi việc lựa chọn cẩn thận các cặp âm; nếu các mẫu âm quá dễ phân biệt, mô hình sẽ ngừng học hiệu quả. Các phương pháp như MoCo (Momentum Contrast) đã giới thiệu các ngân hàng bộ nhớ để xử lý hiệu quả số lượng lớn mẫu âm. Ngoài ra, việc đào tạo thường đòi hỏi các tài nguyên tính toán đáng kể, chẳng hạn như GPU hiệu suất cao. Khi nghiên cứu tiến triển, Ultralytics tiếp tục khám phá các kỹ thuật này trong hoạt động R&D cho các mô hình sắp ra mắt như YOLO26 , nhằm mục đích cung cấp các hệ thống phát hiện nhanh hơn, nhỏ hơn và chính xác hơn bằng cách tinh chỉnh cách các mô hình học hỏi từ dữ liệu đa dạng, chưa được quản lý.