Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học tương phản

Khám phá học tập tương phản trong máy học. Tìm hiểu cách nó sử dụng dữ liệu tự giám sát để xây dựng các tính năng AI mạnh mẽ. Ultralytics YOLO26 và thị giác máy tính.

Học tương phản là một mô hình học máy dạy các mô hình hiểu dữ liệu bằng cách so sánh các mẫu tương tự và không tương tự. Không giống như học có giám sát truyền thống, vốn phụ thuộc nhiều vào các tập dữ liệu được gắn nhãn thủ công, học tương phản thường được sử dụng trong các bối cảnh học tự giám sát . Ý tưởng cốt lõi rất đơn giản nhưng mạnh mẽ: mô hình học cách kéo các biểu diễn của các mục liên quan (cặp tích cực) lại gần nhau hơn trong không gian vectơ trong khi đẩy các mục không liên quan (cặp tiêu cực) ra xa nhau hơn. Quá trình này cho phép các thuật toán xây dựng các đặc trưng mạnh mẽ, có khả năng khái quát hóa từ lượng lớn dữ liệu chưa được gắn nhãn, điều này rất quan trọng để mở rộng quy mô các hệ thống trí tuệ nhân tạo (AI) .

Cơ chế của học tập tương phản

Cốt lõi của học tập tương phản là khái niệm học bằng cách so sánh. Thay vì ghi nhớ rằng một hình ảnh cụ thể là "con mèo", mô hình học được rằng hai bức ảnh khác nhau của một con mèo giống nhau hơn so với việc mỗi bức ảnh giống với một bức ảnh của một con chó. Điều này thường đạt được thông qua việc tăng cường dữ liệu . Một hình ảnh đầu vào, thường được gọi là "hình ảnh neo", được biến đổi thành hai phiên bản khác nhau bằng các kỹ thuật như cắt xén, lật hoặc làm nhiễu màu. Hai phiên bản này tạo thành một cặp tích cực. Sau đó, mô hình được huấn luyện để giảm thiểu khoảng cách giữa các embedding của chúng trong khi tối đa hóa khoảng cách đến các hình ảnh ngẫu nhiên khác (mẫu tiêu cực) trong lô dữ liệu.

Cách tiếp cận này giúp mạng nơ-ron tập trung vào các đặc điểm ngữ nghĩa cấp cao thay vì các chi tiết pixel cấp thấp. Ví dụ, dù một chiếc xe màu đỏ hay xanh lam, hoặc quay mặt sang trái hay sang phải, khái niệm cơ bản về "xe hơi" vẫn không thay đổi. Bằng cách bỏ qua những biến thể bề ngoài này, mô hình phát triển sự hiểu biết sâu sắc hơn về thế giới thị giác, điều này mang lại lợi ích đáng kể cho các tác vụ tiếp theo như phát hiện và phân loại đối tượng .

Các Ứng dụng Thực tế

Học tập tương phản đã trở thành nền tảng cho nhiều ứng dụng trí tuệ nhân tạo tiên tiến, đặc biệt là trong trường hợp dữ liệu được gắn nhãn khan hiếm hoặc tốn kém để thu thập.

  1. Phân loại hình ảnh không cần huấn luyện trước (Zero-Shot Image Classification): Các mô hình như CLIP (Contrastive Language-Image Pre-training) sử dụng học tập tương phản để căn chỉnh hình ảnh và văn bản trong không gian đặc trưng chung. Bằng cách huấn luyện trên hàng triệu cặp hình ảnh-văn bản, mô hình học cách liên kết các khái niệm trực quan với các mô tả ngôn ngữ tự nhiên. Điều này cho phép học tập không cần huấn luyện trước , trong đó mô hình có thể... classify Phân loại hình ảnh vào các danh mục mà nó chưa từng thấy trong quá trình huấn luyện, đơn giản bằng cách ghép hình ảnh với một gợi ý bằng văn bản.
  2. Huấn luyện trước mạnh mẽ cho hình ảnh y tế: Trong lĩnh vực chăm sóc sức khỏe, việc thu thập các hình ảnh y tế được chuyên gia dán nhãn rất tốn kém và mất thời gian. Các nhà nghiên cứu sử dụng học tương phản để huấn luyện trước các mô hình trên các cơ sở dữ liệu lớn gồm các hình ảnh X-quang hoặc MRI chưa được dán nhãn. Quá trình huấn luyện trước không giám sát này tạo ra một nền tảng mạnh mẽ có thể được tinh chỉnh với một số lượng nhỏ các ví dụ được dán nhãn để detect Chẩn đoán các bệnh như viêm phổi hoặc khối u với độ chính xác cao. Kỹ thuật này tận dụng học chuyển giao để cải thiện các công cụ chẩn đoán trong trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe .

Phân biệt các khái niệm liên quan

Việc phân biệt học tập tương phản với các kỹ thuật tương tự là rất hữu ích để hiểu được vai trò độc đáo của nó trong lĩnh vực học máy (ML) .

  • So với Autoencoder: Mặc dù cả hai đều là phương pháp không giám sát, autoencoder hướng đến việc tái tạo dữ liệu đầu vào từng pixel một, nén nó vào một lớp thắt cổ chai. Mặt khác, học tương phản không cố gắng tái tạo hình ảnh mà chỉ tập trung vào việc học các biểu diễn phân biệt để tách biệt các khái niệm khác nhau.
  • So với Mạng đối kháng tạo sinh (GAN): GAN bao gồm một bộ tạo tạo ra dữ liệu giả và một bộ phân loại cố gắng... detect Học tương phản tập trung vào học biểu diễn hơn là tạo dữ liệu, do đó phù hợp hơn cho các tác vụ như tìm kiếm, truy xuất và phân loại.
  • So với Triplet Loss: Phương pháp Triplet Loss truyền thống yêu cầu rõ ràng một mẫu neo, một mẫu tích cực và một mẫu tiêu cực. Các phương pháp so sánh hiện đại, chẳng hạn như SimCLR hoặc MoCo , khái quát hóa điều này bằng cách so sánh một mẫu neo với nhiều mẫu tiêu cực đồng thời trong một lô, thường sử dụng một hàm mất mát cụ thể như InfoNCE.

Ví dụ thực tế với Embeddings

Mặc dù việc huấn luyện một mô hình tương phản từ đầu tốn nhiều tài nguyên, bạn có thể dễ dàng sử dụng các mô hình đã được huấn luyện trước để trích xuất đặc trưng. Ví dụ sau đây minh họa cách tải một mô hình và trích xuất vectơ đặc trưng (embedding) cho một hình ảnh bằng cách sử dụng... ultralytics gói này. Sự nhúng này thể hiện nội dung ngữ nghĩa được học thông qua các kỹ thuật tương tự như huấn luyện trước tương phản.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Run inference on an image to get the results
# The 'embed' argument can be used in advanced workflows to extract feature layers
results = model("https://ultralytics.com/images/bus.jpg")

# Access the top predicted class probability
# This prediction is based on the learned feature representations
print(f"Top class: {results[0].names[results[0].probs.top1]}")
print(f"Confidence: {results[0].probs.top1conf:.4f}")

Khả năng trích xuất các đặc điểm phong phú và có ý nghĩa này làm cho học tập tương phản trở nên thiết yếu để xây dựng các hệ thống thị giác máy tính (CV) hiện đại, cho phép tìm kiếm hình ảnh hiệu quả và phân tích nâng cao. Để quản lý tập dữ liệu và huấn luyện các mô hình tùy chỉnh tận dụng các kiến ​​trúc tiên tiến này, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa cho việc triển khai và giám sát.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay