Khám phá cách CLIP của OpenAI tạo ra cuộc cách mạng cho AI với khả năng học zero-shot, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.
CLIP (Contrastive Language-Image Pre-training) là một mô hình đa phương thức đột phá được phát triển bởi OpenAI, kết nối văn bản và hình ảnh trong một không gian hiểu biết chung. Không giống như các mô hình truyền thống được huấn luyện cho một tác vụ duy nhất như phân loại hình ảnh, CLIP học các khái niệm trực quan trực tiếp từ các mô tả bằng ngôn ngữ tự nhiên. Nó được huấn luyện trên một tập dữ liệu lớn gồm các cặp hình ảnh-văn bản từ internet, cho phép nó thực hiện nhiều tác vụ khác nhau mà không cần huấn luyện cụ thể cho từng tác vụ—một khả năng được gọi là học không cần mẫu. Cách tiếp cận này làm cho nó trở thành một mô hình nền tảng mạnh mẽ cho một thế hệ ứng dụng AI mới.
Ý tưởng cốt lõi đằng sau CLIP là học một không gian embedding chung, nơi cả hình ảnh và văn bản có thể được biểu diễn dưới dạng vector. Nó sử dụng hai bộ mã hóa riêng biệt: một Vision Transformer (ViT) hoặc một kiến trúc tương tự cho hình ảnh và một Transformer văn bản cho văn bản. Trong quá trình huấn luyện, mô hình được cung cấp một loạt các cặp hình ảnh-văn bản và học cách dự đoán chú thích văn bản nào tương ứng với hình ảnh nào. Điều này đạt được thông qua học tương phản (contrastive learning), trong đó mục tiêu của mô hình là tối đa hóa sự tương đồng của các embedding cho các cặp chính xác đồng thời giảm thiểu nó cho các cặp không chính xác. Kết quả, được trình bày chi tiết trong bài nghiên cứu gốc, là một sự hiểu biết mạnh mẽ về các khái niệm liên kết dữ liệu trực quan với ngữ cảnh ngôn ngữ. Một triển khai mã nguồn mở, OpenCLIP, được huấn luyện trên các bộ dữ liệu như LAION-5B, đã giúp công nghệ này được phổ biến rộng rãi.
Các khả năng độc đáo của CLIP cho phép nó được sử dụng trong một số ứng dụng thực tế:
Điều quan trọng là phải phân biệt CLIP với các mô hình thị giác máy tính (CV) chuyên dụng như Ultralytics YOLO.
Mặc dù khác biệt, những mô hình này bổ sung cho nhau. Tương lai của CV có thể liên quan đến việc kết hợp ngữ cảnh ngữ nghĩa từ các mô hình như CLIP với độ chính xác định vị của các detector như YOLO11 để xây dựng các hệ thống AI phức tạp hơn.
Mặc dù mạnh mẽ, CLIP vẫn có những hạn chế. Vì nó được đào tạo trên dữ liệu khổng lồ, không được kiểm duyệt từ internet, nó có thể hấp thụ và sao chép các thành kiến xã hội được tìm thấy trong dữ liệu đó, dẫn đến những lo ngại về tính công bằng trong AI và sai lệch thuật toán tiềm ẩn. Nó cũng gặp khó khăn với một số tác vụ đòi hỏi chi tiết tỉ mỉ hoặc suy luận không gian, chẳng hạn như đếm chính xác các đối tượng. Nghiên cứu đang diễn ra, bao gồm cả công việc tại các tổ chức như Trung tâm Nghiên cứu về Mô hình Nền tảng (CRFM) của Stanford, tập trung vào việc giảm thiểu những sai lệch này và cải thiện khả năng của nó. Việc tích hợp kiến thức của CLIP vào các quy trình làm việc khác nhau có thể được quản lý bằng các nền tảng như Ultralytics HUB, giúp đơn giản hóa việc quản lý mô hình và tập dữ liệu.