Khám phá SigLIP, phương pháp hàm mất mát sigmoid tiết kiệm bộ nhớ dành cho các mô hình xử lý ngôn ngữ hình ảnh. Tìm hiểu cách nó cải thiện khả năng mở rộng và huấn luyện. Ultralytics YOLO các dự án.
SigLIP, viết tắt của Sigmoid Loss for Language Image Pre-Training, là một phương pháp hiệu quả cao để huấn luyện các mô hình xử lý ngôn ngữ hình ảnh. Ban đầu được giới thiệu bởi các nhà nghiên cứu tại Google Research , phương pháp này đã thay đổi căn bản cách các mô hình AI học mối quan hệ giữa hình ảnh và mô tả văn bản tương ứng của chúng. Bằng cách thay thế các hàm xác suất truyền thống bằng một phương pháp phân loại nhị phân đơn giản hơn, SigLIP cho phép các nhà phát triển huấn luyện các kiến trúc đa phương thức quy mô lớn với chi phí bộ nhớ ít hơn đáng kể và hiệu quả tính toán cao hơn.
Trong các quy trình học máy tiêu chuẩn kết hợp dữ liệu hình ảnh và văn bản, các mô hình thường dựa vào cái nhìn tổng quát về tất cả dữ liệu trong một lô nhất định để học chính xác. SigLIP loại bỏ nút thắt cổ chai này bằng cách coi mỗi cặp hình ảnh-văn bản là một bài toán phân loại nhị phân độc lập. Sử dụng hàm sigmoid chuẩn, mô hình chỉ đơn giản dự đoán liệu một hình ảnh và mô tả văn bản cụ thể có khớp hay không khớp.
Cách tiếp cận cục bộ đối với hàm mất mát này có nghĩa là bộ nhớ cần thiết trong quá trình huấn luyện mô hình tăng tuyến tính chứ không phải theo bậc hai. Do đó, các kỹ sư có thể sử dụng kích thước lô lớn hơn đáng kể trên các cấu hình phần cứng tiêu chuẩn được hỗ trợ bởi các framework như PyTorch , dẫn đến hiệu suất được cải thiện trên các tập dữ liệu đa dạng mà không cần tăng theo cấp số nhân. GPU tài nguyên.
Khi tìm hiểu về các kiến trúc AI hiện đại, điều cần thiết là phải phân biệt SigLIP với phiên bản tiền nhiệm của nó, CLIP (Contrastive Language-Image Pre-training) .
Thiết kế tiết kiệm bộ nhớ của SigLIP tạo nên nền tảng mạnh mẽ cho nhiều ứng dụng thực tiễn trong ngành công nghệ:
Khi quản lý dữ liệu tùy chỉnh cho các loại tác vụ xử lý hình ảnh phức tạp này, các nhóm thường sử dụng Nền tảng Ultralytics để tối ưu hóa việc chú thích tập dữ liệu trên đám mây và tích hợp liền mạch thông tin chi tiết về văn bản và hình ảnh trước khi triển khai các mô hình tiên tiến như Ultralytics YOLO26 để suy luận tốc độ cao tại biên.
Để hiểu cách SigLIP tính toán tổn thất ở mức độ cơ bản, bạn có thể mô phỏng quy trình bằng cách sử dụng các phương pháp cơ bản. PyTorch các thao tác. Đoạn mã này minh họa cách tiếp cận sigmoid theo cặp thay thế logic xác suất đa lớp truyền thống.
import torch
import torch.nn.functional as F
# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)
# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)
# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()
print(f"Calculated SigLIP Loss: {loss.item():.4f}")
Bằng cách tận dụng phương pháp tiếp cận tinh gọn này, cộng đồng AI rộng lớn hơn, bao gồm các nhà nghiên cứu công bố bài báo tại các tổ chức như IEEE và ACM , tiếp tục thúc đẩy ranh giới của học tập đa phương thức, thiết lập các mẹo huấn luyện mô hình mới và các phương pháp tốt nhất cho thế hệ AI thị giác tiếp theo.
Bắt đầu hành trình của bạn với tương lai của học máy