Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học tương phản

Khám phá sức mạnh của học tương phản (contrastive learning), một kỹ thuật tự giám sát (self-supervised) để biểu diễn dữ liệu mạnh mẽ với dữ liệu được gắn nhãn tối thiểu.

Học tương phản là một kỹ thuật học máy (ML) mạnh mẽ, cho phép các mô hình học các biểu diễn dữ liệu mạnh mẽ mà không cần nhãn thủ công. Bằng cách dạy mạng nơ-ron phân biệt các điểm dữ liệu tương tự và khác biệt, phương pháp này cho phép các thuật toán hiểu được cấu trúc cơ bản của một tập dữ liệu. Thay vì dự đoán trực tiếp một danh mục cụ thể, mô hình học bằng cách so sánh các cặp ví dụ, kéo các biểu diễn của các mục liên quan - được gọi là cặp dương - lại gần nhau hơn trong không gian nhúng , đồng thời đẩy các mục không liên quan - cặp âm - ra xa nhau hơn. Khả năng này biến nó thành nền tảng của học tự giám sát hiện đại, cho phép các nhà phát triển tận dụng lượng lớn dữ liệu chưa được gắn nhãn.

Học tập tương phản hoạt động như thế nào

Cơ chế cốt lõi của học tương phản xoay quanh khái niệm phân biệt trường hợp. Quá trình đào tạo thường bao gồm ba thành phần chính: tăng cường dữ liệu, mạng mã hóa và hàm mất mát tương phản.

  • Tăng cường dữ liệu : Để tạo ra một cặp ảnh dương, hệ thống sẽ lấy một ảnh gốc ("mỏ neo") và áp dụng các phép biến đổi ngẫu nhiên, chẳng hạn như cắt xén, lật ảnh hoặc làm nhiễu màu. Các chế độ xem tăng cường này thể hiện cùng một nội dung ngữ nghĩa nhưng trông khác nhau theo từng pixel.
  • Mạng mã hóa : Mạng nơ-ron tích chập (CNN) hoặc Vision Transformer (ViT) xử lý cả neo và phiên bản tăng cường của nó để tạo ra các vectơ đặc trưng. Các nền tảng như PyTorch thường được sử dụng để triển khai các kiến trúc này.
  • Mất mát tương phản : Một hàm mất mát, chẳng hạn như mất mát InfoNCE , tối ưu hóa mô hình bằng cách giảm thiểu khoảng cách giữa các cặp dương và tối đa hóa khoảng cách giữa mẫu neo và mẫu âm (thường là các hình ảnh khác trong cùng kích thước lô ). Nghiên cứu mang tính bước ngoặt như SimCLR của Google Nghiên cứu đã chứng minh phương pháp này hiệu quả như thế nào đối với việc học biểu diễn trực quan.

Các Ứng dụng Thực tế

Các biểu diễn học được thông qua phương pháp đối chiếu có khả năng chuyển giao cao sang các nhiệm vụ tiếp theo.

  1. Tìm kiếm và Đề xuất Trực quan : Trong AI bán lẻ , học tương phản hỗ trợ các công cụ tìm kiếm ngữ nghĩa . Bằng cách ánh xạ hình ảnh sản phẩm vào không gian vector, nơi các mặt hàng tương tự về mặt thị giác được nhóm lại với nhau, các nền tảng thương mại điện tử có thể đề xuất các sản phẩm phù hợp với phong cách hoặc tính năng của hình ảnh truy vấn của người dùng, từ đó cải thiện trải nghiệm của khách hàng.
  2. Tiền huấn luyện cho Phát hiện Đối tượng : Các mô hình có thể được huấn luyện trước trên các tập dữ liệu lớn, chưa được gắn nhãn bằng cách sử dụng các mục tiêu tương phản trước khi được tinh chỉnh cho các tác vụ cụ thể như phát hiện đối tượng . Chiến lược này, thường được sử dụng trước khi huấn luyện các kiến trúc tiên tiến như YOLO11 , giúp tăng đáng kể hiệu suất và tốc độ hội tụ, đặc biệt là khi dữ liệu được gắn nhãn khan hiếm (một kịch bản được gọi là học ít lần ).

Học tập tương phản so với các khái niệm liên quan

Hiểu được sự khác biệt giữa phương pháp học tương phản và các mô hình khác sẽ hữu ích cho việc lựa chọn phương pháp phù hợp.

  • So với Học có giám sát : Học có giám sát truyền thống dựa trên các tập dữ liệu mở rộng, trong đó mỗi hình ảnh đều cần được gắn nhãn dữ liệu thủ công. Học tương phản tạo ra các tín hiệu giám sát riêng từ chính dữ liệu, giúp giảm chi phí chú thích.
  • So với Autoencoder : Mặc dù cả hai đều không có giám sát, nhưng autoencoder thường hướng đến việc tái tạo dữ liệu đầu vào theo từng pixel. Học tương phản tập trung vào việc học các đặc điểm phân biệt giúp phân tách các trường hợp khác nhau, điều này thường mang lại các biểu diễn có ý nghĩa hơn cho các tác vụ phân loại.
  • So với CLIP : Mô hình CLIP (Tiền huấn luyện Ngôn ngữ-Hình ảnh Tương phản) của OpenAI là một ứng dụng cụ thể của học tương phản. Trong khi học tương phản tiêu chuẩn so sánh hình ảnh với hình ảnh, CLIP so sánh hình ảnh với mô tả văn bản, cho phép AI đa phương thức phát triển các khả năng.

Ví dụ: Sử dụng các tính năng đã học

Mặc dù việc huấn luyện một vòng lặp tương phản đầy đủ đòi hỏi khối lượng tính toán đáng kể, bạn có thể tận dụng các mô hình đã học được các đặc điểm mạnh mẽ thông qua các kỹ thuật tiền huấn luyện tương tự. Ví dụ sau minh họa việc tải một mô hình phân loại hình ảnh đã được huấn luyện trước để xử lý hình ảnh, sử dụng các khả năng trích xuất đặc điểm cơ bản được tối ưu hóa trong quá trình huấn luyện.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
# The backbone of this model has learned to extract powerful features
model = YOLO("yolo11n-cls.pt")

# Run inference on a sample image
# This process utilizes the learned feature embeddings to predict the class
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top predicted class names
print(results[0].names[results[0].probs.top1])

Thách thức và Định hướng Tương lai

Mặc dù thành công, học tương phản vẫn gặp phải nhiều thách thức. Nó đòi hỏi việc lựa chọn cẩn thận các cặp âm; nếu các mẫu âm quá dễ phân biệt, mô hình sẽ ngừng học hiệu quả. Các phương pháp như MoCo (Momentum Contrast) đã giới thiệu các ngân hàng bộ nhớ để xử lý hiệu quả số lượng lớn mẫu âm. Ngoài ra, việc đào tạo thường đòi hỏi các tài nguyên tính toán đáng kể, chẳng hạn như GPU hiệu suất cao. Khi nghiên cứu tiến triển, Ultralytics tiếp tục khám phá các kỹ thuật này trong hoạt động R&D cho các mô hình sắp ra mắt như YOLO26 , nhằm mục đích cung cấp các hệ thống phát hiện nhanh hơn, nhỏ hơn và chính xác hơn bằng cách tinh chỉnh cách các mô hình học hỏi từ dữ liệu đa dạng, chưa được quản lý.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay