Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

SigLIP

Erforsche SigLIP, den speichereffizienten Sigmoid-Loss-Ansatz für Vision-Language-Modelle. Lerne, wie er Skalierung und Training für Ultralytics YOLO-Projekte verbessert.

SigLIP, was für Sigmoid Loss for Language Image Pre-Training steht, ist ein hocheffizienter Ansatz zum Training von vision-language models. Ursprünglich von Forschern bei Google Research eingeführt, verändert diese Methode grundlegend, wie KI-Modelle die Beziehung zwischen Bildern und ihren zugehörigen Textbeschreibungen lernen. Indem herkömmliche Wahrscheinlichkeitsfunktionen durch einen einfacheren binären Klassifizierungsansatz ersetzt werden, ermöglicht SigLIP Entwicklern, massive multimodale Architekturen mit deutlich geringerem Speicherbedarf und höherer Recheneffizienz zu trainieren.

Link to this sectionDie Architektur verstehen#

In standardmäßigen machine learning-Pipelines, die visuelle und textuelle Daten paaren, verlassen sich Modelle normalerweise auf eine globale Sicht aller Daten in einem gegebenen Batch, um korrekt zu lernen. SigLIP eliminiert diesen Engpass, indem jedes Bild-Text-Paar als ein unabhängiges binäres Klassifizierungsproblem behandelt wird. Unter Verwendung einer standardmäßigen sigmoid-Funktion sagt das Modell einfach vorher, ob ein spezifisches Bild und eine Textbeschreibung zusammenpassen oder nicht.

Dieser lokalisierte Ansatz für die loss function bedeutet, dass der während des model training erforderliche Speicher nicht quadratisch, sondern linear skaliert. Folglich können Ingenieure wesentlich größere Batch-Größen auf Standard-Hardwarekonfigurationen nutzen, die von Frameworks wie PyTorch unterstützt werden, was zu verbesserter Leistung auf diversen datasets führt, ohne exponentielle Steigerungen bei GPU-Ressourcen zu erfordern.

Link to this sectionUnterscheidung von SigLIP gegenüber CLIP#

Wenn du moderne KI-Architekturen erkundest, ist es wichtig, SigLIP von seinem Vorgänger, CLIP (Contrastive Language-Image Pre-training), zu unterscheiden.

  • CLIP: Verlässt sich auf eine Softmax-Loss-Funktion, die vom Modell verlangt, ein Bild gleichzeitig mit allen Textbeschreibungen in einem Batch zu vergleichen. Dies erzeugt einen schwerwiegenden Speicherengpass während des deep learning-Trainings, wenn Batch-Größen zunehmen.
  • SigLIP: Nutzt einen paarweisen Sigmoid-Loss. Es muss lediglich bewertet werden, ob ein einzelnes Bild-Text-Paar eine wahre oder falsche Übereinstimmung darstellt, was es hochgradig skalierbar und einfacher zu verteilen über mehrere Geräte macht, wenn du artificial intelligence-Workflows optimierst.

Link to this sectionPraxisanwendungen#

Das speichereffiziente Design von SigLIP macht es zu einer leistungsstarken Grundlage für verschiedene praktische Anwendungen in der Technologiebranche:

  • Zero-Shot Image Classification: SigLIP zeichnet sich dadurch aus, Bilder in neue Klassen zu kategorisieren, die es während des Trainings nie explizit gesehen hat. Dies ist unglaublich nützlich für dynamische image classification-Systeme, bei denen sich Kategorien häufig ändern, wodurch die Notwendigkeit einer ständigen manuellen Datenmarkierung entfällt.
  • Semantic Search Engines: Durch die Generierung hochpräziser multimodaler Embeddings unterstützt SigLIP fortschrittliche Abrufsysteme. Benutzer können komplexe Textabfragen eingeben, um massenhafte, unstrukturierte Bilddatenbanken mit hoher Präzision zu durchsuchen.

Wenn Teams benutzerdefinierte Daten für diese Art komplexer Vision-Aufgaben verwalten, greifen sie häufig auf die Ultralytics Platform zurück, um die Cloud-Datensatzannotation zu optimieren und Text- sowie Bildeinblicke nahtlos zu integrieren, bevor sie fortschrittliche Modelle wie Ultralytics YOLO26 für Hochgeschwindigkeits-Edge-Inferenz bereitstellen.

Link to this sectionImplementierungsbeispiel#

Um zu verstehen, wie SigLIP den Loss auf fundamentaler Ebene berechnet, kannst du den Prozess mithilfe grundlegender PyTorch-Operationen simulieren. Dieser Schnipsel zeigt, wie der paarweise Sigmoid-Ansatz die herkömmliche Multi-Class-Wahrscheinlichkeitslogik ersetzt.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

Durch die Nutzung dieses optimierten Ansatzes verschiebt die breitere KI-Community, einschließlich Forschern, die bei Institutionen wie dem IEEE und der ACM veröffentlichen, weiterhin die Grenzen des multimodalen Lernens und etabliert neue model training tips sowie Best Practices für die nächste Generation der Vision-KI.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens