Bảng chú giải thuật ngữ

CLIP (Contrastive Language-Image Pre-training)

Khám phá cách CLIP của OpenAI tạo ra cuộc cách mạng cho AI với khả năng học zero-shot, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.

CLIP (Contrastive Language-Image Pre-training) là một mô hình đa phương thức đột phá được phát triển bởi OpenAI, kết nối văn bản và hình ảnh trong một không gian hiểu biết chung. Không giống như các mô hình truyền thống được huấn luyện cho một tác vụ duy nhất như phân loại hình ảnh, CLIP học các khái niệm trực quan trực tiếp từ các mô tả bằng ngôn ngữ tự nhiên. Nó được huấn luyện trên một tập dữ liệu lớn gồm các cặp hình ảnh-văn bản từ internet, cho phép nó thực hiện nhiều tác vụ khác nhau mà không cần huấn luyện cụ thể cho từng tác vụ—một khả năng được gọi là học không cần mẫu. Cách tiếp cận này làm cho nó trở thành một mô hình nền tảng mạnh mẽ cho một thế hệ ứng dụng AI mới.

Cách thức hoạt động

Ý tưởng cốt lõi đằng sau CLIP là học một không gian embedding chung, nơi cả hình ảnh và văn bản có thể được biểu diễn dưới dạng vector. Nó sử dụng hai bộ mã hóa riêng biệt: một Vision Transformer (ViT) hoặc một kiến trúc tương tự cho hình ảnh và một Transformer văn bản cho văn bản. Trong quá trình huấn luyện, mô hình được cung cấp một loạt các cặp hình ảnh-văn bản và học cách dự đoán chú thích văn bản nào tương ứng với hình ảnh nào. Điều này đạt được thông qua học tương phản (contrastive learning), trong đó mục tiêu của mô hình là tối đa hóa sự tương đồng của các embedding cho các cặp chính xác đồng thời giảm thiểu nó cho các cặp không chính xác. Kết quả, được trình bày chi tiết trong bài nghiên cứu gốc, là một sự hiểu biết mạnh mẽ về các khái niệm liên kết dữ liệu trực quan với ngữ cảnh ngôn ngữ. Một triển khai mã nguồn mở, OpenCLIP, được huấn luyện trên các bộ dữ liệu như LAION-5B, đã giúp công nghệ này được phổ biến rộng rãi.

Các Ứng dụng Thực tế

Các khả năng độc đáo của CLIP cho phép nó được sử dụng trong một số ứng dụng thực tế:

Tìm kiếm Hình ảnh Ngữ nghĩa: CLIP cung cấp sức mạnh cho các hệ thống tìm kiếm nâng cao, nơi người dùng có thể tìm hình ảnh bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên thay vì thẻ từ khóa. Ví dụ: người dùng có thể tìm kiếm trong danh mục thương mại điện tử "một chiếc áo sơ mi sọc xanh cho nam giới" và nhận được kết quả phù hợp ngay cả khi các sản phẩm không được gắn thẻ rõ ràng bằng những từ chính xác đó. Ultralytics cung cấp một giải pháp tìm kiếm hình ảnh ngữ nghĩa sử dụng CLIP và FAISS (Tìm kiếm Tương đồng AI của Facebook) để truy xuất nhanh chóng và chính xác trong các thư viện hình ảnh lớn.
Kiểm duyệt Nội dung: Các nền tảng truyền thông xã hội có thể sử dụng CLIP để tự động gắn cờ những hình ảnh mô tả nội dung được nêu trong chính sách của họ, chẳng hạn như biểu tượng thù hận hoặc bạo lực đồ họa. Điều này linh hoạt hơn các phương pháp truyền thống vì nó có thể xác định các vi phạm dựa trên mô tả bằng văn bản mà không cần bộ dữ liệu được gắn nhãn trước cho mọi loại nội dung bị cấm.
Hướng dẫn AI tạo sinh: Bộ mã hóa của CLIP rất quan trọng để điều khiển các mô hình AI tạo sinh như DALL-E hoặc Stable Diffusion. Khi người dùng cung cấp một lời nhắc bằng văn bản, CLIP đánh giá hình ảnh được tạo để xem mức độ phù hợp của nó với ý nghĩa của lời nhắc, hướng dẫn mô hình tạo ra hình ảnh chính xác và phù hợp hơn.
Cải thiện khả năng tiếp cận: Mô hình có thể tự động tạo ra các chú thích mô tả phong phú cho hình ảnh, có thể được sử dụng bởi trình đọc màn hình để mô tả nội dung trực quan cho người dùng khiếm thị, cải thiện đáng kể khả năng tiếp cận (accessibility) web.

CLIP so với YOLO

Điều quan trọng là phải phân biệt CLIP với các mô hình thị giác máy tính (CV) chuyên dụng như Ultralytics YOLO.

CLIP vượt trội trong hiểu biết ngữ nghĩa. Nó biết những gì một hình ảnh chứa đựng theo nghĩa rộng, khái niệm (ví dụ: nó hiểu khái niệm "một bữa tiệc sinh nhật"). Điểm mạnh của nó là kết nối ngôn ngữ với hình ảnh cho các tác vụ như phân loại và tìm kiếm, khiến nó trở thành một Mô hình Ngôn ngữ Thị giác mạnh mẽ.
Các mô hình YOLO vượt trội trong xác định vị trí. Chúng được thiết kế để phát hiện đối tượng và phân đoạn, xác định vị trí và ranh giới chính xác của các đối tượng trong một hình ảnh (ví dụ: xác định vị trí của mọi người, bánh và bóng bay trong một bữa tiệc sinh nhật).

Mặc dù khác biệt, những mô hình này bổ sung cho nhau. Tương lai của CV có thể liên quan đến việc kết hợp ngữ cảnh ngữ nghĩa từ các mô hình như CLIP với độ chính xác định vị của các detector như YOLO11 để xây dựng các hệ thống AI phức tạp hơn.

Các giới hạn và định hướng tương lai

Mặc dù mạnh mẽ, CLIP vẫn có những hạn chế. Vì nó được đào tạo trên dữ liệu khổng lồ, không được kiểm duyệt từ internet, nó có thể hấp thụ và sao chép các thành kiến xã hội được tìm thấy trong dữ liệu đó, dẫn đến những lo ngại về tính công bằng trong AI và sai lệch thuật toán tiềm ẩn. Nó cũng gặp khó khăn với một số tác vụ đòi hỏi chi tiết tỉ mỉ hoặc suy luận không gian, chẳng hạn như đếm chính xác các đối tượng. Nghiên cứu đang diễn ra, bao gồm cả công việc tại các tổ chức như Trung tâm Nghiên cứu về Mô hình Nền tảng (CRFM) của Stanford, tập trung vào việc giảm thiểu những sai lệch này và cải thiện khả năng của nó. Việc tích hợp kiến thức của CLIP vào các quy trình làm việc khác nhau có thể được quản lý bằng các nền tảng như Ultralytics HUB, giúp đơn giản hóa việc quản lý mô hình và tập dữ liệu.

CLIP (Contrastive Language-Image Pre-training)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách thức hoạt động

Các Ứng dụng Thực tế

CLIP so với YOLO

Các giới hạn và định hướng tương lai

Đọc thêm trong danh mục này

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tham gia cộng đồng Ultralytics