Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Entdeckung von SAM 3: Meta AI's neues Segment Anything Model

Finde heraus, wie SAM 3, das neue Segment Anything Model von Meta AI, es einfach macht, Objekte in realen Bildern und Videos zu erkennen, zu segmentieren und zu verfolgen.

ABAbirami Vina
5 min read
Meta AI's SAM 3 Segment Anything Model

Am 19. November 2025 veröffentlichte Meta AI das Segment Anything Model 3, auch bekannt als SAM 3. Diese neueste Version des Segment Anything Model führt neue Möglichkeiten ein, um Objekte in realen Bildern und Videos mithilfe von Text-Prompts, visuellen Prompts und Bildbeispielen zu erkennen, zu segmentieren und zu verfolgen.

Das SAM 3 Modell baut auf SAM und SAM 2 auf und bringt neue Fortschritte und Funktionen wie Konzeptsegmentierung, Open-Vocabulary-Erkennung und Echtzeit-Videoverfolgung. Es kann kurze Nomen-Phrasen verstehen, Objekten über Frames hinweg folgen und feinkörnige oder seltene Konzepte identifizieren, die frühere Modelle nicht so konsistent verarbeiten konnten.

Als Teil der SAM 3 Veröffentlichung stellte Meta auch SAM 3D vor. Diese Suite von Modellen der nächsten Generation rekonstruiert Objekte, Szenen und ganze menschliche Körper aus einem einzelnen Bild und erweitert das Segment Anything-Ökosystem um 3D-Verständnis. Diese Erweiterungen eröffnen neue Anwendungsgebiete in computer vision, Robotik, Medienbearbeitung und kreativen Workflows.

In diesem Artikel werden wir untersuchen, was SAM 3 ist, wodurch es sich von SAM 2 unterscheidet, wie das Modell funktioniert und wo seine realen Anwendungen liegen. Fangen wir an!

Link to this sectionWas ist SAM 3? Ein Blick auf Metas Segment Anything Model 3#

SAM 3 ist ein hochmodernes computer vision model, das Objekte in Bildern und Videos basierend auf einfachen Anweisungen identifizieren, trennen und verfolgen kann. Anstatt sich auf eine feste Liste von Labels zu verlassen, versteht SAM 3 natürliche Sprache und visuelle Hinweise, was es einfach macht, dem Modell mitzuteilen, was du finden möchtest.

Mit SAM 3 kannst du zum Beispiel einen kurzen Satz wie „gelber Schulbus“ oder „eine gestreifte Katze“ eingeben, auf ein Objekt klicken oder ein Beispiel in einem Bild markieren. Das Modell erkennt dann jedes passende Objekt und generiert saubere Segmentierungsmasken (einen visuellen Umriss, der genau zeigt, welche Pixel zu einem Objekt gehören). SAM 3 kann diesen Objekten auch über Videoframes hinweg folgen und sie konsistent halten, während sie sich bewegen.

Link to this sectionSAM 3D ermöglicht 3D-Rekonstruktion aus einem einzigen Bild#

Ein weiterer spannender Teil der Ankündigung von Meta AI ist SAM 3D, das das Segment Anything-Projekt auf das 3D-Verständnis ausweitet. SAM 3D kann ein einzelnes 2D-Bild nehmen und die Form, Pose oder Struktur eines Objekts oder eines menschlichen Körpers in drei Dimensionen rekonstruieren. Mit anderen Worten: Das Modell kann abschätzen, wie etwas den Raum einnimmt, selbst wenn nur eine einzige Perspektive verfügbar ist.

SAM 3D wurde als zwei verschiedene Modelle veröffentlicht: SAM 3D Objects, das alltägliche Gegenstände mit Geometrie und Textur rekonstruiert, und SAM 3D Body, das die Form und Pose eines menschlichen Körpers aus einem einzigen Bild schätzt. Beide Modelle verwenden die Segmentierungsausgabe von SAM 3 und generieren dann eine 3D-Repräsentation, die mit dem Aussehen und der Position des Objekts im Originalfoto übereinstimmt.

Ein Beispiel für die Verwendung von SAM 3D

Abb. 1. Ein Beispiel für die Verwendung von SAM 3D. (Quelle: Erstellt mit dem Segment Anything Playground von Meta AI)

Link to this sectionSAM 3: Neue Funktionen zur Vereinheitlichung von Erkennung, Segmentierung und Tracking#

Hier sind einige der wichtigsten Updates, die SAM 3 einführt, um Erkennung, Segmentierung und Tracking in einem einheitlichen Modell zusammenzuführen:

  • Konzeptsegmentierungsaufgaben: In SAM und SAM 2 hing die Objektsegmentierung von visuellen Prompts wie Klicks oder Boxen ab. SAM 3 fügt die Fähigkeit hinzu, Objekte basierend auf einem kurzen Textausdruck oder einem Beispielausschnitt aus dem Bild zu segmentieren. Das bedeutet, das Modell kann alle übereinstimmenden Instanzen identifizieren, ohne für jede einzelne einen Klick zu erfordern.
  • Open-Vocabulary-Text-Prompts: Im Gegensatz zu früheren Versionen kann SAM 3 kurze Sätze in natürlicher Sprache interpretieren. Dies macht eine feste Label-Liste überflüssig und ermöglicht es dem Modell, mit spezifischeren oder weniger verbreiteten Konzepten zu arbeiten.
  • Ein Modell für Erkennung, Segmentierung und Tracking: SAM 3 vereinheitlicht Erkennung, Segmentierung und Tracking in einem Modell und macht separate Systeme überflüssig, um Objekte zu finden, Segmentierungsmasken zu erstellen und sie über Videoframes hinweg zu verfolgen. Dies schafft einen konsistenteren und effizienteren Workflow sowohl für Bilder als auch für Videos. Während SAM 2 auch einige Tracking-Funktionen bot, liefert SAM 3 eine deutlich stärkere und zuverlässigere Leistung.
  • Stabilere Ergebnisse in komplexen Szenen: Da SAM 3 Text, Beispielbilder und visuelle Prompts kombinieren kann, kann es mit unübersichtlichen oder repetitiven Szenen zuverlässiger umgehen als frühere Versionen, die sich nur auf visuelle Klicks verließen.

SAM 3 Konzeptsegmentierung mit Text- oder Bildbeispielen

Abb. 2. SAM 3 führt Konzeptsegmentierung mit Text- oder Bildbeispielen ein. (Quelle)

Link to this sectionVergleich von SAM 3 vs. SAM 2 vs. SAM 1#

Nehmen wir an, du schaust dir ein Safari-Video mit vielen verschiedenen Tieren an und möchtest nur die Elefanten erkennen und segmentieren. Wie würde diese Aufgabe in den verschiedenen Versionen von SAM aussehen?

Mit SAM müsstest du manuell auf jeden Elefanten in jedem Frame klicken, um eine Segmentierungsmaske zu erstellen. Es gibt kein Tracking, daher erfordert jeder neue Frame neue Klicks.

Mit SAM 2 könntest du einmal auf einen Elefanten klicken, seine Maske erhalten und das Modell würde diesen einen Elefanten durch das Video verfolgen. Du müsstest jedoch immer noch separate Klicks bereitstellen, wenn du mehrere Elefanten (spezifische Objekte) segmentieren möchtest, da SAM 2 Kategorien wie „Elefant“ nicht von sich aus versteht.

Mit SAM 3 wird der Workflow viel einfacher. Du kannst „Elefant“ tippen oder eine Bounding Box um einen einzelnen Elefanten zeichnen, um ein Beispiel zu geben, und das Modell findet automatisch jeden Elefanten im Video, segmentiert ihn und verfolgt ihn konsistent über alle Frames hinweg. Es unterstützt weiterhin die Klick- und Box-Prompts aus früheren Versionen, kann jetzt aber auch auf Text-Prompts und Beispielbilder reagieren – etwas, das SAM und SAM 2 nicht konnten.

Link to this sectionWie das SAM 3 Modell funktioniert#

Als Nächstes schauen wir uns genauer an, wie das SAM 3 Modell funktioniert und wie es trainiert wurde.

Link to this sectionEin Überblick über die Modellarchitektur von SAM 3#

SAM 3 bringt mehrere Komponenten zusammen, um Konzept-Prompts und visuelle Prompts in einem einzigen System zu unterstützen. Im Kern verwendet das Modell den Meta Perception Encoder, Metas einheitlichen Open-Source-Bild-Text-Encoder.

Dieser Encoder kann sowohl Bilder als auch kurze Nomen-Phrasen verarbeiten. Einfach gesagt erlaubt dies SAM 3, Sprache und visuelle Merkmale effektiver zu verknüpfen als frühere Versionen des Segment Anything Model.

Auf diesem Encoder aufbauend enthält SAM 3 einen Detektor, der auf der DETR-Familie von Transformer-Modellen basiert. Dieser Detektor identifiziert Objekte im Bild und hilft dem System zu bestimmen, welche Objekte dem Prompt des Benutzers entsprechen.

Speziell für die Videosegmentierung verwendet SAM 3 eine Tracking-Komponente, die auf der Memory Bank und dem Memory Encoder von SAM 2 aufbaut. Dies ermöglicht es dem Modell, Informationen über Objekte über Frames hinweg zu speichern, sodass es sie im Laufe der Zeit wiedererkennt und verfolgen kann.

Wie das Segmentieren von allem mit Konzepten funktioniert

Abb. 3. Wie Segment Anything mit Konzepten funktioniert (Quelle: scontent)

Link to this sectionDie skalierbare Data Engine hinter dem Segment Anything Model 3#

Um SAM 3 zu trainieren, benötigte Meta weitaus mehr annotierte Daten, als derzeit im Internet existieren. Hochwertige Segmentierungsmasken und Textlabels sind in großem Maßstab schwer zu erstellen, und jede Instanz eines Konzepts in Bildern und Videos vollständig zu umreißen, ist langsam und teuer.

Um dies zu lösen, baute Meta eine neue Data Engine, die SAM 3 selbst, zusätzliche KI-Modelle und menschliche Annotatoren kombiniert. Der Workflow beginnt mit einer Pipeline von KI-Systemen, einschließlich SAM 3 und einem auf Llama basierenden Captioning-Modell.

Diese Systeme scannen große Sammlungen von Bildern und Videos, generieren Bildunterschriften, konvertieren diese in Textlabels und erstellen erste Kandidaten für Segmentierungsmasken. Menschliche und KI-Annotatoren überprüfen dann diese Kandidaten.

Die KI-Annotatoren, die darauf trainiert sind, die menschliche Genauigkeit bei Aufgaben wie der Überprüfung der Maskenqualität und der Verifizierung der Konzeptabdeckung zu erreichen oder sogar zu übertreffen, filtern einfache Fälle heraus. Menschen greifen nur bei anspruchsvolleren Beispielen ein, bei denen das Modell möglicherweise noch Schwierigkeiten hat.

SAM 3 Data Engine

Abb. 4. SAM 3 Data Engine (Quelle)

Dieser Ansatz verschafft Meta einen großen Schub bei der Annotationsgeschwindigkeit. Indem KI-Annotatoren einfache Fälle bearbeiten, wird die Pipeline bei negativen Prompts etwa fünfmal schneller und bei positiven Prompts in feinkörnigen Bereichen um 36 % schneller.

Diese Effizienz ermöglichte es, den Datensatz auf mehr als vier Millionen einzigartige Konzepte zu skalieren. Die ständige Schleife aus KI-Vorschlägen, menschlichen Korrekturen und aktualisierten Modellvorhersagen verbessert zudem die Label-Qualität im Laufe der Zeit und hilft SAM 3, ein viel breiteres Spektrum an visuellen und textbasierten Konzepten zu erlernen.

Link to this sectionLeistungsverbesserungen von SAM 3#

In Bezug auf die Leistung bietet SAM 3 eine klare Verbesserung gegenüber früheren Modellen. Auf Metas neuem SA-Co-Benchmark, der Open-Vocabulary-Konzept-Erkennung und -Segmentierung bewertet, erreicht SAM 3 etwa die doppelte Leistung früherer Systeme sowohl bei Bildern als auch bei Videos.

Es erreicht oder übertrifft SAM 2 auch bei interaktiven visuellen Aufgaben wie Point-to-Mask und Mask-to-Masklet. Meta berichtet von weiteren Gewinnen bei härteren Evaluationen wie Zero-Shot LVIS (wobei Modelle seltene Kategorien ohne Trainingsbeispiele erkennen müssen) und Objektzählung (wobei gemessen wird, ob alle Instanzen eines Objekts erkannt werden), was eine stärkere Generalisierung über verschiedene Domänen hinweg unterstreicht.

Zusätzlich zu diesen Genauigkeitsverbesserungen ist SAM 3 effizient: Es verarbeitet ein Bild mit mehr als 100 erkannten Objekten in etwa 30 Millisekunden auf einer H200 GPU und behält bei der Verfolgung mehrerer Objekte in Videos nahezu Echtzeitgeschwindigkeit bei.

Link to this sectionAnwendungen des Segment Anything Model 3#

Nachdem wir nun ein besseres Verständnis von SAM 3 haben, gehen wir durch, wie es in realen Anwendungen eingesetzt wird, von fortschrittlicher textgesteuerter Schlussfolgerung bis hin zur wissenschaftlichen Forschung und Metas eigenen Produkten.

Link to this sectionUmgang mit komplexen Textanfragen mithilfe des SAM 3 Agent#

SAM 3 kann auch als Werkzeug innerhalb eines größeren multimodalen Sprachmodells verwendet werden, das Meta den SAM 3 Agent nennt. Anstatt SAM 3 einen kurzen Ausdruck wie „Elefant“ zu geben, kann der Agent eine kompliziertere Frage in kleinere Prompts aufteilen, die SAM 3 versteht.

Wenn der Benutzer beispielsweise fragt: „Welches Objekt auf dem Bild wird zum Steuern und Lenken eines Pferdes verwendet?“, probiert der Agent verschiedene Nomen-Phrasen aus, sendet sie an SAM 3 und überprüft, welche Masken Sinn ergeben. Er verfeinert das Ergebnis so lange, bis er das richtige Objekt findet.

Auch ohne auf speziellen Reasoning-Datensätzen trainiert zu sein, schneidet der SAM 3 Agent bei Benchmarks für komplexe Textanfragen wie ReasonSeg und OmniLabel gut ab. Dies zeigt, dass SAM 3 Systeme unterstützen kann, die sowohl Sprachverständnis als auch feinkörnige visuelle Segmentierung benötigen.

Link to this sectionWissenschaftliche und naturschutzbezogene Anwendungen von SAM 3#

Interessanterweise wird SAM 3 bereits in Forschungsumgebungen eingesetzt, in denen detaillierte visuelle Labels wichtig sind. Meta arbeitete mit Conservation X Labs und Osa Conservation zusammen, um SA-FARI zu erstellen, einen öffentlichen Datensatz zur Überwachung wildlebender Tiere mit mehr als 10.000 Wildkamera-Videos.

Jedes Tier in jedem Frame ist mit Boxen und Segmentierungsmasken versehen, was von Hand extrem zeitaufwändig wäre. Ähnlich wird SAM 3 in der Meeresforschung zusammen mit FathomNet und MBARI verwendet, um Instanzsegmentierungsmasken für Unterwasserbilder zu erstellen und neue Evaluierungsbenchmarks zu unterstützen.

Solche Datensätze helfen Wissenschaftlern, Videomaterial effizienter zu analysieren und Tiere sowie Lebensräume zu untersuchen, die normalerweise schwer in großem Maßstab zu verfolgen sind. Forscher können diese Ressourcen auch nutzen, um eigene Modelle zur Artenidentifikation, Verhaltensanalyse und automatisierten ökologischen Überwachung zu entwickeln.

Link to this sectionWie Meta SAM 3 in seinen Produkten einsetzt#

Zusätzlich zu Forschungszwecken treibt SAM 3 auch neue Funktionen und Anwendungsfälle in den Verbraucherprodukten von Meta an. Hier ist ein Einblick in einige der Möglichkeiten, wie es bereits integriert wird:

  • Instagram-Bearbeitungen: Ersteller können Effekte auf eine bestimmte Person oder ein Objekt in einem Video anwenden, ohne manuell Bild für Bild arbeiten zu müssen.
  • Meta AI App und meta.ai im Web: SAM 3 unterstützt neue Werkzeuge zum Modifizieren, Verbessern und Remixen von Bildern und Videos.
  • Facebook Marketplace „Im Raum ansehen“: SAM 3 arbeitet mit SAM 3D zusammen, damit Nutzer Möbel oder Dekoration mithilfe eines einzigen Fotos in ihrem Zuhause betrachten können.
  • Aria Gen 2 Forschungsbrillen: Das Segment Anything Model 3 hilft dabei, Hände und Objekte aus einer First-Person-Perspektive zu segmentieren und zu verfolgen, was AR (Augmented Reality), Robotik und kontextbezogene KI-Forschung unterstützt.

Link to this sectionWichtige Erkenntnisse#

SAM 3 ist ein spannender Schritt vorwärts für die Segmentierung. Es führt Konzeptsegmentierung, Open-Vocabulary-Text-Prompts und verbessertes Tracking ein. Mit einer spürbar stärkeren Leistung bei Bildern und Videos sowie der Ergänzung durch SAM 3D eröffnet die Modell-Suite neue Möglichkeiten für Vision AI, kreative Werkzeuge, wissenschaftliche Forschung und reale Produkte.

Tritt unserer Community bei und erkunde unser GitHub repository, um mehr über KI zu erfahren. Wenn du dein eigenes Vision AI-Projekt aufbauen möchtest, schau dir unsere Lizenzoptionen an. Erfahre mehr über Anwendungen wie KI im Gesundheitswesen und Vision AI im Einzelhandel auf unseren Lösungsseiten.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens