Khám phá cách CLIP của OpenAI tạo ra cuộc cách mạng cho AI với khả năng học zero-shot, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.
CLIP (Tiền huấn luyện Ngôn ngữ-Hình ảnh Tương phản) là một kiến trúc mô hình đa phương thức đột phá do OpenAI giới thiệu, giúp thu hẹp khoảng cách giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên. Không giống như các hệ thống thị giác máy tính truyền thống được huấn luyện trên các tập hợp cố định các danh mục được gắn nhãn sẵn, CLIP học cách liên kết hình ảnh với mô tả văn bản bằng cách huấn luyện trên hàng trăm triệu cặp hình ảnh-văn bản được thu thập từ internet. Phương pháp này cho phép mô hình hiểu các khái niệm trực quan thông qua lăng kính ngôn ngữ tự nhiên, cho phép thực hiện một khả năng được gọi là học không-cú-cú , trong đó mô hình có thể classify Phân tích hình ảnh thành các danh mục mà nó chưa từng thấy rõ trong quá trình huấn luyện. Bằng cách sắp xếp thông tin hình ảnh và văn bản trong một không gian đặc trưng chung, CLIP đóng vai trò là một mô hình nền tảng linh hoạt cho một loạt các tác vụ AI hạ nguồn.
Cơ chế cốt lõi đằng sau CLIP dựa trên hai bộ mã hóa riêng biệt: một Vision Transformer (ViT) hoặc ResNet để xử lý hình ảnh, và một Text Transformer để xử lý ngôn ngữ. Mô hình sử dụng phương pháp học tương phản để đồng bộ hóa hai phương thức này. Trong quá trình huấn luyện, CLIP nhận một loạt các cặp (hình ảnh, văn bản) và học cách dự đoán mô tả văn bản nào khớp với hình ảnh nào. Nó tối ưu hóa các tham số để tối đa hóa độ tương đồng cosin giữa các cặp nhúng chính xác, đồng thời giảm thiểu độ tương đồng cho các cặp không chính xác.
Quá trình đào tạo này tạo ra một không gian tiềm ẩn chung, trong đó các hình ảnh và văn bản tương tự về mặt ngữ nghĩa được đặt gần nhau. Ví dụ, biểu diễn vectơ của hình ảnh "chó tha mồi vàng" sẽ rất gần với biểu diễn vectơ của chuỗi văn bản "ảnh của một chú chó tha mồi vàng". Sự liên kết này cho phép các nhà phát triển thực hiện phân loại hình ảnh bằng cách chỉ cần cung cấp danh sách các nhãn văn bản tiềm năng, mô hình sẽ so sánh chúng với hình ảnh đầu vào để tìm ra kết quả khớp nhất.
Tính linh hoạt của CLIP đã khiến nó được áp dụng trong nhiều ngành công nghiệp và ứng dụng:
Mặc dù CLIP ban đầu được thiết kế để phân loại, khả năng mã hóa văn bản của nó đã được tích hợp vào các kiến trúc phát hiện đối tượng hiện đại để cho phép phát hiện từ vựng mở. Mô hình YOLO -World cho phép người dùng định nghĩa các lớp tùy chỉnh khi chạy bằng các lệnh ngôn ngữ tự nhiên, tận dụng khả năng hiểu ngôn ngữ của CLIP để nhận dạng đối tượng mà không cần đào tạo lại.
Ví dụ sau đây minh họa cách sử dụng YOLO -Mô hình thế giới với ultralytics gói đến detect
các đối tượng tùy chỉnh được xác định bằng văn bản:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
Điều quan trọng là phải phân biệt CLIP với các mô hình giám sát tiêu chuẩn như ResNet hoặc các phiên bản trước đó của YOLO .
Nghiên cứu gần đây thường kết hợp các phương pháp này. Ví dụ, Mô hình Ngôn ngữ Thị giác (VLM) thường sử dụng CLIP làm nền tảng để cung cấp sự phong phú về mặt ngữ nghĩa, trong khi những cải tiến về mặt kiến trúc từ các mô hình như YOLO26 nhằm mục đích nâng cao tốc độ và độ chính xác của các hệ thống đa phương thức này.