Thuật ngữ

CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản)

Khám phá cách CLIP của OpenAI cách mạng hóa AI với công nghệ học không cần thực hiện, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

CLIP (Contrastive Language-Image Pre-training) là một mạng nơ-ron (NN) đa năng do OpenAI phát triển, có khả năng hiểu các khái niệm trực quan được mô tả bằng ngôn ngữ hàng ngày. Không giống như các mô hình phân loại hình ảnh truyền thống yêu cầu các tập dữ liệu được gắn nhãn tỉ mỉ, CLIP học bằng cách phân tích hàng trăm triệu cặp hình ảnh-văn bản được thu thập từ internet. Nó sử dụng một kỹ thuật gọi là học tương phản để nắm bắt các mối quan hệ phức tạp giữa hình ảnh và mô tả văn bản tương ứng của chúng. Phương pháp đào tạo độc đáo này cho phép CLIP thực hiện cực kỳ tốt các nhiệm vụ khác nhau mà không cần đào tạo cụ thể cho chúng, một khả năng mạnh mẽ được gọi là học không-bắn .

Clip hoạt động như thế nào

Kiến trúc của CLIP bao gồm hai phần chính: bộ mã hóa hình ảnh và bộ mã hóa văn bản. Bộ mã hóa hình ảnh, thường sử dụng các kiến trúc như Vision Transformer (ViT) hoặc ResNet , xử lý hình ảnh để trích xuất các đặc điểm trực quan chính. Song song đó, bộ mã hóa văn bản, thường dựa trên mô hình Transformer phổ biến trong Xử lý ngôn ngữ tự nhiên (NLP) , phân tích các mô tả văn bản liên quan để nắm bắt ý nghĩa ngữ nghĩa của chúng. Trong giai đoạn đào tạo, CLIP học cách chiếu các biểu diễn ( nhúng ) của cả hình ảnh và văn bản vào một không gian đa chiều được chia sẻ. Mục tiêu cốt lõi của quá trình học tương phản là tối đa hóa độ tương đồng (thường được đo bằng độ tương đồng cosin) giữa các nhúng của cặp hình ảnh-văn bản chính xác đồng thời giảm thiểu độ tương đồng đối với các cặp không chính xác trong một lô nhất định. Phương pháp này dạy mô hình một cách hiệu quả cách liên kết các mẫu hình ảnh với các từ và cụm từ có liên quan, như được trình bày chi tiết trong bài báo CLIP gốc .

Các tính năng và lợi thế chính

Ưu điểm quan trọng nhất của CLIP là khả năng học zero-shot đáng chú ý của nó. Vì nó học được mối liên hệ rộng giữa dữ liệu trực quan và ngôn ngữ thay vì các danh mục cố định, nên nó có thể phân loại hình ảnh dựa trên các mô tả văn bản hoàn toàn mới mà nó chưa từng gặp trong quá trình đào tạo, loại bỏ nhu cầu tinh chỉnh cụ thể cho từng tác vụ trong nhiều trường hợp. Ví dụ, CLIP có khả năng xác định một hình ảnh được mô tả là "một bản phác thảo về một chú chó xanh" ngay cả khi nó không được đào tạo rõ ràng trên các hình ảnh được dán nhãn như vậy, bằng cách kết hợp các khái niệm đã học của nó về "bản phác thảo", "màu xanh" và "chó". Khả năng thích ứng này khiến CLIP trở nên rất có giá trị đối với các ứng dụng thị giác máy tính (CV) đa dạng. Nó thường đạt được hiệu suất cạnh tranh, ngay cả khi so sánh với các mô hình được đào tạo theo các mô hình học có giám sát trên các tập dữ liệu chuẩn như ImageNet .

Clip so với các mô hình khác

Cách tiếp cận của CLIP khác với các mô hình Trí tuệ nhân tạo (AI) phổ biến khác:

  • Bộ phân loại hình ảnh có giám sát: Bộ phân loại truyền thống học từ các tập dữ liệu trong đó mỗi hình ảnh có một nhãn cụ thể (ví dụ: 'mèo', 'chó'). Chúng xuất sắc trong các danh mục được xác định trước nhưng lại gặp khó khăn với các khái niệm chưa biết. CLIP học từ các cặp hình ảnh-văn bản không có cấu trúc, cho phép phân loại zero-shot cho các lời nhắc văn bản tùy ý.
  • Mô hình phát hiện đối tượng: Các mô hình như Ultralytics YOLO tập trung vào phát hiện đối tượng , xác định vị trí của các đối tượng trong hình ảnh bằng cách sử dụng các hộp giới hạn và phân loại chúng. Mặc dù mạnh mẽ đối với các tác vụ định vị như phát hiện hoặc phân đoạn , nhưng chúng không có khả năng hiểu nội tại của CLIP về các mô tả ngôn ngữ tùy ý để phân loại. Bạn có thể xem so sánh giữa các mô hình YOLO về hiệu suất phát hiện.
  • Các mô hình ngôn ngữ thị giác khác (VLM): CLIP là một loại mô hình đa phương thức . Trong khi các VLM khác có thể tập trung vào các tác vụ như Trả lời câu hỏi trực quan (VQA) hoặc chú thích hình ảnh chi tiết, thì điểm mạnh chính của CLIP nằm ở khả năng phân loại hình ảnh không cần chụp và khả năng khớp hình ảnh-văn bản mạnh mẽ. Tìm hiểu thêm về các loại VLM khác nhau trên blog Ultralytics .
  • Mô hình tạo sinh: Các mô hình như Stable Diffusion hoặc DALL-E tập trung vào việc tạo hình ảnh từ văn bản ( văn bản thành hình ảnh ). Mặc dù CLIP không tự tạo hình ảnh, nhưng bộ mã hóa văn bản của nó thường được sử dụng trong các mô hình tạo sinh để đảm bảo hình ảnh đầu ra phù hợp với lời nhắc văn bản đầu vào.

Ứng dụng trong thế giới thực

Khả năng độc đáo của CLIP có thể được sử dụng vào nhiều mục đích thực tế:

  • Kiểm duyệt nội dung: Tự động lọc hoặc gắn cờ hình ảnh dựa trên mô tả văn bản về nội dung không phù hợp hoặc không mong muốn, mà không cần các ví dụ được gắn nhãn trước về mọi vi phạm có thể xảy ra. OpenAI sử dụng CLIP như một phần của công cụ kiểm duyệt nội dung.
  • Tìm kiếm hình ảnh ngữ nghĩa: Cho phép người dùng tìm kiếm các thư viện hình ảnh lớn (như các trang ảnh lưu trữ như Unsplash hoặc bộ sưu tập ảnh cá nhân) bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên thay vì chỉ từ khóa hoặc thẻ. Ví dụ, tìm kiếm "bãi biển thanh bình lúc hoàng hôn với những cây cọ".
  • Cải thiện khả năng truy cập: Tự động tạo mô tả hình ảnh có liên quan cho người dùng khiếm thị.
  • Hướng dẫn AI tạo sinh: Như đã đề cập, bộ mã hóa của CLIP giúp điều khiển các mô hình AI tạo sinh để tạo ra hình ảnh phản ánh chính xác các lời nhắc văn bản phức tạp.

Những hạn chế và hướng đi trong tương lai

Mặc dù có khả năng đột phá, CLIP không phải là không có hạn chế. Việc nó phụ thuộc vào dữ liệu internet khổng lồ, chưa được quản lý có nghĩa là nó có thể kế thừa các thành kiến xã hội hiện diện trong văn bản và hình ảnh, làm dấy lên mối lo ngại về tính công bằng trong AIcác thành kiến thuật toán tiềm ẩn. Ngoài ra, CLIP có thể gặp khó khăn với các tác vụ đòi hỏi lý luận không gian chính xác (ví dụ: đếm chính xác các đối tượng) hoặc nhận dạng các chi tiết trực quan cực kỳ chi tiết. Nghiên cứu đang tích cực khám phá các phương pháp để giảm thiểu các thành kiến này, tăng cường sự hiểu biết chi tiết và tích hợp kiến thức ngữ nghĩa của CLIP với các thế mạnh bản địa hóa của các mô hình như YOLOv11 . Việc kết hợp các loại mô hình khác nhau và quản lý các thử nghiệm có thể được sắp xếp hợp lý bằng các nền tảng như Ultralytics HUB . Hãy cập nhật những phát triển mới nhất về AI thông qua các nguồn tài nguyên như blog Ultralytics .

Đọc tất cả