YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

SigLIP

ビジョン言語モデル向けのメモリ効率の高いシグモイド損失アプローチ、SigLIPについて解説します。これがUltralytics YOLOプロジェクトのスケーリングと学習をどのように改善するかを学びましょう。

SigLIPは「Sigmoid Loss for Language Image Pre-Training」の略で、ビジョン言語モデルを学習させるための非常に効率的な手法です。Google Researchの研究者によって発表されたこの手法は、AIモデルが画像とそれに対応するテキスト記述の関係を学習する方法を根本的に変えました。従来の確率関数をよりシンプルなバイナリ分類アプローチに置き換えることで、SigLIPは開発者がメモリ消費を大幅に抑え、より高い計算効率で大規模なマルチモーダルアーキテクチャを学習できるようにします。

Link to this sectionアーキテクチャの理解#

視覚データとテキストデータをペアにする標準的な機械学習パイプラインでは、モデルは通常、学習を正しく行うためにバッチ内のすべてのデータの全体的なビューに依存します。SigLIPはこのボトルネックを解消し、すべての画像とテキストのペアを独立したバイナリ分類問題として扱います。標準的なシグモイド関数を使用することで、モデルは特定の画像とテキストの記述が一致しているか、一致していないかを予測するだけになります。

この損失関数への局所的なアプローチにより、モデル学習中に必要なメモリは二次関数的ではなく線形的にスケールします。その結果、エンジニアはPyTorchのようなフレームワークがサポートする標準的なハードウェア構成で大幅に大きなバッチサイズを利用できるようになり、GPUリソースを指数関数的に増やすことなく、多様なデータセットでのパフォーマンスを向上させることができます。

Link to this sectionSigLIPとCLIPの違い#

最新のAIアーキテクチャを調査する際、SigLIPをその前身であるCLIP (Contrastive Language-Image Pre-training)と区別することが重要です。

  • CLIP: ソフトマックス損失関数に依存しており、モデルがバッチ内のすべてのテキスト記述に対して画像を同時に比較する必要があります。これにより、バッチサイズが大きくなると、深層学習の学習中に深刻なメモリのボトルネックが発生します。
  • SigLIP: ペアワイズシグモイド損失を利用します。単一の画像とテキストのペアが真の一致か偽の一致かを評価するだけでよいため、スケーラビリティが高く、人工知能ワークフローを最適化する際に複数のデバイスに分散させることが容易になります。

Link to this section実社会での応用#

SigLIPのメモリ効率に優れた設計は、テック業界全体でさまざまな実用的なアプリケーションの強力な基盤となっています。

  • ゼロショット画像分類: SigLIPは、学習中に明示的に見たことのない新しいクラスに画像を分類する能力に優れています。これはカテゴリが頻繁に変更される動的な画像分類システムにおいて非常に有用であり、絶え間ない手動のデータラベル付けを不要にします。
  • セマンティック検索エンジン: 高精度なマルチモーダル埋め込みを生成することで、SigLIPは高度な検索システムを実現します。ユーザーは複雑なテキストクエリを入力して、膨大な非構造化画像データベースを高い精度で検索できます。

こうした複雑なビジョンタスクのためにカスタムデータを管理する際、チームはUltralytics Platformを活用してクラウドデータセットのアノテーションを合理化し、Ultralytics YOLO26のような高度なモデルを高速なエッジ推論にデプロイする前に、テキストと画像の洞察をシームレスに統合することがよくあります。

Link to this section実装例#

SigLIPが損失を計算する基本的なレベルの仕組みを理解するために、基本的なPyTorch操作を使用してそのプロセスをシミュレートできます。このスニペットは、ペアワイズシグモイドアプローチが従来のマルチクラス確率論理をどのように置き換えるかを示しています。

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

この合理化されたアプローチを活用することで、IEEEやACMなどの機関で出版する研究者を含むより広範なAIコミュニティは、マルチモーダル学習の限界を押し広げ続け、次世代のビジョンAIに向けた新しいモデル学習のヒントとベストプラクティスを確立しています。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう