Thuật ngữ

CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản)

Khám phá cách CLIP của OpenAI cách mạng hóa AI với công nghệ học không cần thực hiện, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.

CLIP (Tiền huấn luyện Ngôn ngữ-Hình ảnh Tương phản) là một mô hình đa phương thức đột phá do OpenAI phát triển, kết nối văn bản và hình ảnh trong một không gian hiểu biết chung. Không giống như các mô hình truyền thống được huấn luyện cho một tác vụ duy nhất như phân loại hình ảnh , CLIP học các khái niệm trực quan trực tiếp từ các mô tả ngôn ngữ tự nhiên. Nó được huấn luyện trên một tập dữ liệu khổng lồ các cặp hình ảnh-văn bản từ internet, cho phép nó thực hiện nhiều tác vụ khác nhau mà không cần huấn luyện cụ thể cho từng tác vụ - một khả năng được gọi là học zero-shot . Phương pháp này biến nó thành một mô hình nền tảng mạnh mẽ cho thế hệ ứng dụng AI mới.

Nó hoạt động như thế nào

Ý tưởng cốt lõi đằng sau CLIP là tìm hiểu một không gian nhúng chung, trong đó cả hình ảnh và văn bản đều có thể được biểu diễn dưới dạng vectơ. Nó sử dụng hai bộ mã hóa riêng biệt: Vision Transformer (ViT) hoặc kiến trúc tương tự cho hình ảnh và Text Transformer cho văn bản. Trong quá trình đào tạo, mô hình được cung cấp một loạt các cặp hình ảnh-văn bản và học cách dự đoán chú thích văn bản nào tương ứng với hình ảnh nào. Điều này đạt được thông qua học tương phản , trong đó mục tiêu của mô hình là tối đa hóa sự giống nhau của các nhúng đối với các cặp đúng trong khi giảm thiểu nó đối với các cặp không đúng. Kết quả, được trình bày chi tiết trong bài báo nghiên cứu ban đầu , là sự hiểu biết vững chắc về các khái niệm liên kết dữ liệu trực quan với ngữ cảnh ngôn ngữ. Một triển khai nguồn mở, OpenCLIP, được đào tạo trên các tập dữ liệu như LAION-5B , đã giúp công nghệ này có thể truy cập rộng rãi.

Ứng dụng trong thế giới thực

Khả năng độc đáo của CLIP có thể được sử dụng vào nhiều mục đích thực tế:

  • Tìm kiếm hình ảnh ngữ nghĩa : CLIP hỗ trợ các hệ thống tìm kiếm nâng cao, cho phép người dùng tìm kiếm hình ảnh bằng truy vấn ngôn ngữ tự nhiên thay vì thẻ từ khóa. Ví dụ: người dùng có thể tìm kiếm "áo sơ mi sọc xanh dành cho nam" trong danh mục thương mại điện tử và nhận được kết quả phù hợp ngay cả khi sản phẩm không được gắn thẻ chính xác bằng những từ khóa đó. Ultralytics cung cấp giải pháp tìm kiếm hình ảnh ngữ nghĩa sử dụng CLIP và FAISS (Tìm kiếm tương đồng bằng AI của Facebook) để truy xuất nhanh chóng và chính xác trong các thư viện hình ảnh lớn.
  • Kiểm duyệt Nội dung : Các nền tảng mạng xã hội có thể sử dụng CLIP để tự động gắn cờ các hình ảnh mô tả nội dung được mô tả trong chính sách của họ, chẳng hạn như biểu tượng thù địch hoặc bạo lực đồ họa. Phương pháp này linh hoạt hơn các phương pháp truyền thống vì có thể xác định các vi phạm dựa trên mô tả văn bản, mà không cần tập dữ liệu được gắn nhãn trước cho mọi loại nội dung bị cấm.
  • Định hướng AI Tạo sinh : Bộ mã hóa của CLIP đóng vai trò quan trọng trong việc định hướng các mô hình AI tạo sinh như DALL-E hoặc Stable Diffusion. Khi người dùng cung cấp lời nhắc văn bản, CLIP sẽ đánh giá hình ảnh được tạo ra để xem nó khớp với ý nghĩa của lời nhắc đến mức nào, từ đó hướng dẫn mô hình tạo ra hình ảnh chính xác và phù hợp hơn.
  • Cải thiện khả năng truy cập : Mô hình có thể tự động tạo chú thích mô tả phong phú cho hình ảnh, có thể được trình đọc màn hình sử dụng để mô tả nội dung trực quan cho người dùng khiếm thị, cải thiện đáng kể khả năng truy cập web.

CLIP so với YOLO

Điều quan trọng là phải phân biệt CLIP với các mô hình thị giác máy tính (CV) chuyên biệt như Ultralytics YOLO .

  • CLIP vượt trội về khả năng hiểu ngữ nghĩa . Nó hiểu nội dung của một hình ảnh theo nghĩa rộng, khái niệm (ví dụ, nó hiểu khái niệm "tiệc sinh nhật"). Điểm mạnh của nó nằm ở khả năng kết nối ngôn ngữ với hình ảnh cho các tác vụ như phân loại và tìm kiếm, khiến nó trở thành một Mô hình Ngôn ngữ Thị giác mạnh mẽ.
  • Mô hình YOLO nổi trội về khả năng định vị . Chúng được thiết kế để phát hiện và phân đoạn đối tượng , xác định vị trí chính xác và ranh giới của các đối tượng trong ảnh (ví dụ: xác định vị trí của từng người, chiếc bánh và những quả bóng bay trong tiệc sinh nhật).

Tuy khác biệt, các mô hình này lại bổ sung cho nhau. Tương lai của CV có thể bao gồm việc kết hợp ngữ cảnh ngữ nghĩa từ các mô hình như CLIP với độ chính xác định vị của các bộ phát hiện như YOLO11 để xây dựng các hệ thống AI tinh vi hơn.

Những hạn chế và hướng đi trong tương lai

Mặc dù sở hữu sức mạnh vượt trội, CLIP vẫn có những hạn chế. Do được đào tạo trên dữ liệu khổng lồ, chưa được kiểm duyệt từ internet, CLIP có thể hấp thụ và sao chép các thành kiến xã hội được tìm thấy trong dữ liệu đó, dẫn đến lo ngại về tính công bằng trong AI và khả năng xảy ra sai lệch thuật toán . CLIP cũng gặp khó khăn với một số tác vụ đòi hỏi chi tiết hoặc lập luận không gian, chẳng hạn như đếm chính xác các vật thể. Các nghiên cứu đang được tiến hành, bao gồm công việc tại các tổ chức như Trung tâm Nghiên cứu Mô hình Nền tảng (CRFM) của Stanford , tập trung vào việc giảm thiểu những sai lệch này và cải thiện khả năng của nó. Việc tích hợp kiến thức của CLIP vào các quy trình làm việc khác nhau có thể được quản lý bằng các nền tảng như Ultralytics HUB , giúp đơn giản hóa việc quản lý mô hình và tập dữ liệu .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard