Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

SigLIP

Khám phá SigLIP, phương pháp hàm mất mát sigmoid tiết kiệm bộ nhớ dành cho các mô hình xử lý ngôn ngữ hình ảnh. Tìm hiểu cách nó cải thiện khả năng mở rộng và huấn luyện. Ultralytics YOLO các dự án.

SigLIP, viết tắt của Sigmoid Loss for Language Image Pre-Training, là một phương pháp hiệu quả cao để huấn luyện các mô hình xử lý ngôn ngữ hình ảnh. Ban đầu được giới thiệu bởi các nhà nghiên cứu tại Google Research , phương pháp này đã thay đổi căn bản cách các mô hình AI học mối quan hệ giữa hình ảnh và mô tả văn bản tương ứng của chúng. Bằng cách thay thế các hàm xác suất truyền thống bằng một phương pháp phân loại nhị phân đơn giản hơn, SigLIP cho phép các nhà phát triển huấn luyện các kiến ​​trúc đa phương thức quy mô lớn với chi phí bộ nhớ ít hơn đáng kể và hiệu quả tính toán cao hơn.

Hiểu về kiến trúc

Trong các quy trình học máy tiêu chuẩn kết hợp dữ liệu hình ảnh và văn bản, các mô hình thường dựa vào cái nhìn tổng quát về tất cả dữ liệu trong một lô nhất định để học chính xác. SigLIP loại bỏ nút thắt cổ chai này bằng cách coi mỗi cặp hình ảnh-văn bản là một bài toán phân loại nhị phân độc lập. Sử dụng hàm sigmoid chuẩn, mô hình chỉ đơn giản dự đoán liệu một hình ảnh và mô tả văn bản cụ thể có khớp hay không khớp.

Cách tiếp cận cục bộ đối với hàm mất mát này có nghĩa là bộ nhớ cần thiết trong quá trình huấn luyện mô hình tăng tuyến tính chứ không phải theo bậc hai. Do đó, các kỹ sư có thể sử dụng kích thước lô lớn hơn đáng kể trên các cấu hình phần cứng tiêu chuẩn được hỗ trợ bởi các framework như PyTorch , dẫn đến hiệu suất được cải thiện trên các tập dữ liệu đa dạng mà không cần tăng theo cấp số nhân. GPU tài nguyên.

Phân biệt SigLIP với CLIP

Khi tìm hiểu về các kiến ​​trúc AI hiện đại, điều cần thiết là phải phân biệt SigLIP với phiên bản tiền nhiệm của nó, CLIP (Contrastive Language-Image Pre-training) .

  • CLIP : Dựa trên hàm mất mát softmax, yêu cầu mô hình phải so sánh hình ảnh với tất cả các mô tả văn bản trong một lô đồng thời. Điều này tạo ra nút thắt cổ chai bộ nhớ nghiêm trọng trong quá trình huấn luyện học sâu khi kích thước lô tăng lên.
  • SigLIP : Sử dụng hàm mất mát sigmoid theo cặp. Nó chỉ cần đánh giá xem một cặp hình ảnh-văn bản duy nhất có phải là khớp thật hay khớp giả, giúp nó có khả năng mở rộng cao và dễ dàng phân phối trên nhiều thiết bị khi tối ưu hóa quy trình làm việc của trí tuệ nhân tạo .

Các Ứng dụng Thực tế

Thiết kế tiết kiệm bộ nhớ của SigLIP tạo nên nền tảng mạnh mẽ cho nhiều ứng dụng thực tiễn trong ngành công nghệ:

  • Phân loại ảnh không cần huấn luyện (Zero-Shot Image Classification ): SigLIP vượt trội trong việc phân loại ảnh vào các lớp mới mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện. Điều này cực kỳ hữu ích cho các hệ thống phân loại ảnh động, nơi các danh mục thường xuyên thay đổi, loại bỏ nhu cầu dán nhãn dữ liệu thủ công liên tục.
  • Công cụ tìm kiếm ngữ nghĩa : Bằng cách tạo ra các nhúng đa phương thức có độ chính xác cao, SigLIP cung cấp sức mạnh cho các hệ thống truy xuất tiên tiến. Người dùng có thể nhập các truy vấn văn bản phức tạp để tìm kiếm trong các cơ sở dữ liệu hình ảnh khổng lồ, không có cấu trúc với độ chính xác cao.

Khi quản lý dữ liệu tùy chỉnh cho các loại tác vụ xử lý hình ảnh phức tạp này, các nhóm thường sử dụng Nền tảng Ultralytics để tối ưu hóa việc chú thích tập dữ liệu trên đám mây và tích hợp liền mạch thông tin chi tiết về văn bản và hình ảnh trước khi triển khai các mô hình tiên tiến như Ultralytics YOLO26 để suy luận tốc độ cao tại biên.

Ví dụ triển khai

Để hiểu cách SigLIP tính toán tổn thất ở mức độ cơ bản, bạn có thể mô phỏng quy trình bằng cách sử dụng các phương pháp cơ bản. PyTorch các thao tác. Đoạn mã này minh họa cách tiếp cận sigmoid theo cặp thay thế logic xác suất đa lớp truyền thống.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Bằng cách tận dụng phương pháp tiếp cận tinh gọn này, cộng đồng AI rộng lớn hơn, bao gồm các nhà nghiên cứu công bố bài báo tại các tổ chức như IEEEACM , tiếp tục thúc đẩy ranh giới của học tập đa phương thức, thiết lập các mẹo huấn luyện mô hình mới và các phương pháp tốt nhất cho thế hệ AI thị giác tiếp theo.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy