Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

CLIP (Contrastive Language-Image Pre-training)

Khám phá cách CLIP của OpenAI tạo ra cuộc cách mạng cho AI với khả năng học zero-shot, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.

CLIP (Tiền huấn luyện Ngôn ngữ-Hình ảnh Tương phản) là một kiến trúc mô hình đa phương thức đột phá do OpenAI giới thiệu, giúp thu hẹp khoảng cách giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên. Không giống như các hệ thống thị giác máy tính truyền thống được huấn luyện trên các tập hợp cố định các danh mục được gắn nhãn sẵn, CLIP học cách liên kết hình ảnh với mô tả văn bản bằng cách huấn luyện trên hàng trăm triệu cặp hình ảnh-văn bản được thu thập từ internet. Phương pháp này cho phép mô hình hiểu các khái niệm trực quan thông qua lăng kính ngôn ngữ tự nhiên, cho phép thực hiện một khả năng được gọi là học không-cú-cú , trong đó mô hình có thể classify Phân tích hình ảnh thành các danh mục mà nó chưa từng thấy rõ trong quá trình huấn luyện. Bằng cách sắp xếp thông tin hình ảnh và văn bản trong một không gian đặc trưng chung, CLIP đóng vai trò là một mô hình nền tảng linh hoạt cho một loạt các tác vụ AI hạ nguồn.

CLIP hoạt động như thế nào

Cơ chế cốt lõi đằng sau CLIP dựa trên hai bộ mã hóa riêng biệt: một Vision Transformer (ViT) hoặc ResNet để xử lý hình ảnh, và một Text Transformer để xử lý ngôn ngữ. Mô hình sử dụng phương pháp học tương phản để đồng bộ hóa hai phương thức này. Trong quá trình huấn luyện, CLIP nhận một loạt các cặp (hình ảnh, văn bản) và học cách dự đoán mô tả văn bản nào khớp với hình ảnh nào. Nó tối ưu hóa các tham số để tối đa hóa độ tương đồng cosin giữa các cặp nhúng chính xác, đồng thời giảm thiểu độ tương đồng cho các cặp không chính xác.

Quá trình đào tạo này tạo ra một không gian tiềm ẩn chung, trong đó các hình ảnh và văn bản tương tự về mặt ngữ nghĩa được đặt gần nhau. Ví dụ, biểu diễn vectơ của hình ảnh "chó tha mồi vàng" sẽ rất gần với biểu diễn vectơ của chuỗi văn bản "ảnh của một chú chó tha mồi vàng". Sự liên kết này cho phép các nhà phát triển thực hiện phân loại hình ảnh bằng cách chỉ cần cung cấp danh sách các nhãn văn bản tiềm năng, mô hình sẽ so sánh chúng với hình ảnh đầu vào để tìm ra kết quả khớp nhất.

Các Ứng dụng Thực tế

Tính linh hoạt của CLIP đã khiến nó được áp dụng trong nhiều ngành công nghiệp và ứng dụng:

  • Tìm kiếm hình ảnh ngữ nghĩa : Tìm kiếm truyền thống dựa trên siêu dữ liệu hoặc thẻ, nhưng CLIP cho phép tìm kiếm ngữ nghĩa, nơi người dùng có thể truy vấn cơ sở dữ liệu hình ảnh bằng cách sử dụng mô tả ngôn ngữ tự nhiên. Ví dụ: tìm kiếm "bãi biển đông đúc lúc hoàng hôn" sẽ trả về hình ảnh có liên quan dựa trên nội dung trực quan thay vì từ khóa, một kỹ thuật hữu ích cho AI trong lĩnh vực bán lẻ và quản lý tài sản kỹ thuật số.
  • Hướng dẫn Mô hình Tạo sinh : CLIP đóng vai trò quan trọng trong việc đánh giá và hướng dẫn các trình tạo văn bản thành hình ảnh . Bằng cách chấm điểm mức độ phù hợp của hình ảnh được tạo ra với lời nhắc của người dùng, nó hoạt động như một thước đo định hướng cho các mô hình như Stable Diffusion và VQGAN, đảm bảo đầu ra hình ảnh phù hợp với ý định văn bản.
  • Kiểm duyệt nội dung : Các nền tảng sử dụng CLIP để lọc nội dung không phù hợp bằng cách so sánh hình ảnh với mô tả văn bản về các danh mục bị cấm. Biện pháp bảo mật dữ liệu tự động này có hiệu quả hơn so với việc xem xét thủ công.

CLIP trong Phát hiện đối tượng

Mặc dù CLIP ban đầu được thiết kế để phân loại, khả năng mã hóa văn bản của nó đã được tích hợp vào các kiến trúc phát hiện đối tượng hiện đại để cho phép phát hiện từ vựng mở. Mô hình YOLO -World cho phép người dùng định nghĩa các lớp tùy chỉnh khi chạy bằng các lệnh ngôn ngữ tự nhiên, tận dụng khả năng hiểu ngôn ngữ của CLIP để nhận dạng đối tượng mà không cần đào tạo lại.

Ví dụ sau đây minh họa cách sử dụng YOLO -Mô hình thế giới với ultralytics gói đến detect các đối tượng tùy chỉnh được xác định bằng văn bản:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP so với các mô hình tầm nhìn truyền thống

Điều quan trọng là phải phân biệt CLIP với các mô hình giám sát tiêu chuẩn như ResNet hoặc các phiên bản trước đó của YOLO .

  • Các Mô hình Truyền thống thường được đào tạo trên các tập dữ liệu đóng như ImageNet với số lượng lớp cố định (ví dụ: 1.000 danh mục). Nếu cần một danh mục mới, mô hình cần được tinh chỉnh với dữ liệu được gắn nhãn mới.
  • CLIP là một công cụ học từ vựng mở. Nó có thể khái quát hóa bất kỳ khái niệm nào có thể được mô tả trong văn bản. Trong khi các mô hình chuyên biệt như YOLO11 mang lại tốc độ và độ chính xác định vị vượt trội cho các nhiệm vụ cụ thể, CLIP mang lại tính linh hoạt vượt trội cho khả năng hiểu tổng quát.

Nghiên cứu gần đây thường kết hợp các phương pháp này. Ví dụ, Mô hình Ngôn ngữ Thị giác (VLM) thường sử dụng CLIP làm nền tảng để cung cấp sự phong phú về mặt ngữ nghĩa, trong khi những cải tiến về mặt kiến trúc từ các mô hình như YOLO26 nhằm mục đích nâng cao tốc độ và độ chính xác của các hệ thống đa phương thức này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay