用語集

SigLIP

ビジョン言語モデルのためのメモリ効率の良いsigmoid lossアプローチであるSigLIPを探ります。それがUltralytics YOLOプロジェクトのスケーリングとtrainingをどのように改善するかを学びましょう。

SigLIP（Sigmoid Loss for Language Image Pre-Trainingの略）は、ビジョン言語モデルのトレーニングにおいて非常に効率的なアプローチです。元々Google Researchの研究者によって導入されたこの手法は、AIモデルが画像とそれに対応するテキスト記述の関係を学習する方法を根本的に変えます。従来の確率関数をよりシンプルな二項分類アプローチに置き換えることで、SigLIPは開発者が大幅に少ないメモリオーバーヘッドと高い計算効率で大規模なマルチモーダルアーキテクチャをトレーニングすることを可能にします。

アーキテクチャーを理解する

視覚データとテキストデータを組み合わせる標準的な機械学習パイプラインでは、モデルは通常、正しく学習するために、与えられたバッチ内のすべてのデータのグローバルビューに依存します。SigLIPは、すべての画像-テキストペアを独立した二値分類問題として扱うことで、このボトルネックを解消します。標準的なsigmoid関数を使用して、モデルは特定の画像とテキスト記述が一致するかしないかを単純に予測します。

損失関数に対するこの局所化されたアプローチは、モデルトレーニング中に必要とされるメモリが2次ではなく線形にスケールすることを意味します。その結果、エンジニアはPyTorchのようなフレームワークによってサポートされる標準的なハードウェア構成で大幅に大きなバッチサイズを利用でき、GPUリソースの指数関数的な増加を必要とせずに、多様なデータセットでのパフォーマンス向上につながります。

CLIPとSigLIPの区別

現代のAIアーキテクチャを検討する際、SigLIPをその前身であるCLIP（Contrastive Language-Image Pre-training）と区別することが不可欠です。

CLIP: ソフトマックス損失関数に依存しており、モデルはバッチ内のすべてのテキスト記述と画像を同時に比較する必要があります。これにより、バッチサイズが増加するにつれて深層学習の訓練中に深刻なメモリボトルネックが発生します。
SigLIP: ペアワイズシグモイド損失を利用します。単一の画像とテキストのペアが真のマッチであるか偽のマッチであるかを評価するだけで済むため、人工知能ワークフローを最適化する際に、高いスケーラビリティと複数のデバイスへの分散の容易さが実現されます。

実際のアプリケーション

SigLIPのメモリ効率に優れた設計は、テクノロジー業界における様々な実用的なアプリケーションにとって強力な基盤となります。

ゼロショット画像分類: SigLIPは、訓練中に明示的に見たことのない新しいクラスに画像を分類するのに優れています。これは、カテゴリが頻繁に変化する動的な画像分類システムにとって非常に有用であり、絶え間ない手動データラベリングの必要性を排除します。
セマンティック検索エンジン: 高精度なマルチモーダル埋め込みを生成することで、SigLIPは高度な検索システムを強化します。ユーザーは複雑なテキストクエリを入力して、膨大な非構造化画像データベースを高精度で検索できます。

この種の複雑なビジョンタスク向けにカスタムデータを管理する際、チームはしばしばUltralytics Platformを利用して、クラウドデータセットのアノテーションを効率化し、高速なエッジinferenceのためにUltralytics YOLO26のような高度なモデルをデプロイする前に、テキストと画像のインサイトをシームレスに統合します。

実施例

SigLIPが損失を根本的なレベルで計算する方法を理解するには、基本的なPyTorch操作を使用してそのプロセスをシミュレートできます。このスニペットは、ペアワイズシグモイドアプローチが従来の多クラス確率ロジックをどのように置き換えるかを示しています。

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

この効率化されたアプローチを活用することで、IEEEやACMのような機関で論文を発表する研究者を含む、より広範なAIコミュニティは、マルチモーダル学習の限界を押し広げ続け、次世代のビジョンAIのための新しいモデル訓練のヒントとベストプラクティスを確立しています。

SigLIP

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

アーキテクチャーを理解する

CLIPとSigLIPの区別

実際のアプリケーション

実施例

このカテゴリの関連記事

Ultralytics を使用してUltralytics YOLO エクスポートする方法

Ultralytics を使用したパレットの不適切な積み重ねの検知

Ultralytics を使用したポリゴン注釈ガイド

共にAIの未来を築きましょう！

SigLIP

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

アーキテクチャーを理解する

CLIPとSigLIPの区別

実際のアプリケーション

実施例

このカテゴリの関連記事

Ultralytics を使用してUltralytics YOLO エクスポートする方法

Ultralytics を使用したパレットの不適切な積み重ねの検知

Ultralytics を使用したポリゴン注釈ガイド

共にAIの未来を築きましょう！

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。