Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Anwendungen von Meta AIs Segment Anything Model 2 (SAM 2)

Abirami Vina

5 Min. Lesezeit

31. Juli 2024

Begleiten Sie uns, während wir in Meta AIs Segment Anything Model 2 (SAM 2) eintauchen und verstehen, für welche Echtzeitanwendungen es in verschiedenen Branchen eingesetzt werden kann.

Am 29. Juli 2024 veröffentlichte Meta AI die zweite Version ihres Segment Anything Model, SAM 2. Das neue Modell kann genau bestimmen, welche Pixel zu einem Zielobjekt in Bildern und Videos gehören! Das Beste daran ist, dass das Modell einem Objekt in Echtzeit konsistent über alle Frames eines Videos folgen kann. SAM 2 eröffnet spannende Möglichkeiten für die Videobearbeitung, Mixed-Reality-Erlebnisse und die schnellere Annotation visueller Daten für das Training von Computer-Vision-Systemen.

Aufbauend auf dem Erfolg des ursprünglichen SAM, das in Bereichen wie der Meeresforschung, Satellitenbildern und der Medizin eingesetzt wurde, geht SAM 2 Herausforderungen wie sich schnell bewegende Objekte und Veränderungen im Aussehen an. Seine verbesserte Genauigkeit und Effizienz machen es zu einem vielseitigen Werkzeug für eine breite Palette von Anwendungen. In diesem Artikel konzentrieren wir uns darauf, wo SAM 2 eingesetzt werden kann und warum es für die KI-Community wichtig ist.

Was ist SAM 2?

Das Segment Anything Model 2 ist ein fortschrittliches Foundation Model, das Promptable Visual Segmentation oder PVS in Bildern und Videos unterstützt. PVS ist eine Technik, bei der ein Modell verschiedene Teile eines Bildes oder Videos basierend auf bestimmten Prompts oder Eingaben des Benutzers segmentieren oder identifizieren kann. Diese Prompts können in Form von Klicks, Boxen oder Masken vorliegen, die den interessierenden Bereich hervorheben. Das Modell generiert dann eine Segmentierungsmaske, die den angegebenen Bereich umreißt.

Die SAM 2-Architektur baut auf dem ursprünglichen SAM auf, indem sie von der Bildsegmentierung auf die Videosegmentierung erweitert wird. Sie verfügt über einen schlanken Maskendecoder, der Bilddaten und Prompts verwendet, um Segmentierungsmasken zu erstellen. Für Videos führt SAM 2 ein Speichersystem ein, das hilft, Informationen aus früheren Frames zu speichern, um eine genaue Verfolgung im Zeitverlauf zu gewährleisten. Das Speichersystem umfasst Komponenten, die Details über die zu segmentierenden Objekte speichern und abrufen. SAM 2 kann auch Okklusionen verarbeiten, Objekte über mehrere Frames verfolgen und mehrdeutige Prompts verwalten, indem es mehrere mögliche Masken generiert. Die fortschrittliche Architektur von SAM 2 macht es sowohl in statischen als auch in dynamischen visuellen Umgebungen sehr leistungsfähig.

Insbesondere in Bezug auf die Videosegmentierung erreicht SAM 2 eine höhere Genauigkeit mit dreimal weniger Benutzerinteraktionen im Vergleich zu früheren Methoden. Für die Bildsegmentierung übertrifft SAM 2 das ursprüngliche Segment Anything Model (SAM), da es sechsmal schneller und genauer ist. Diese Verbesserung wurde im SAM 2-Forschungsbericht anhand von 37 verschiedenen Datensätzen gezeigt, darunter 23, die zuvor mit SAM getestet wurden. 

Abb. 1. Vergleich von SAM und SAM 2.

Interessanterweise wurde Meta AIs SAM 2 durch die Erstellung des bisher größten Video-Segmentierungs-Datensatzes, dem SA-V-Datensatz, entwickelt. Der umfangreiche Datensatz umfasst über 50.000 Videos und 35,5 Millionen Segmentierungsmasken und wurde durch interaktive Benutzerbeiträge gesammelt. Annotatoren lieferten Prompts und Korrekturen, um dem Modell zu helfen, aus einer Vielzahl von Szenarien und Objekttypen zu lernen.

Anwendungen des Segment Anything Model 2

Dank seiner fortschrittlichen Fähigkeiten in der Bild- und Videosegmentierung kann SAM 2 in verschiedenen Branchen eingesetzt werden. Lassen Sie uns einige dieser Anwendungen erkunden.

SAM 2 ermöglicht Augmented Reality (AR) und Virtual Reality (VR).

Das neue Segmentierungsmodell von Meta AI kann für Augmented Reality (AR)- und Virtual Reality (VR)-Anwendungen eingesetzt werden. Zum Beispiel kann SAM 2 reale Objekte präzise identifizieren und segmentieren, wodurch die Interaktion mit virtuellen Objekten realistischer wirkt. Dies kann in verschiedenen Bereichen wie Gaming, Bildung und Training nützlich sein, wo eine realistische Interaktion zwischen virtuellen und realen Elementen unerlässlich ist.

Mit fortschrittlicheren Geräten wie AR-Brillen könnten die Fähigkeiten von SAM 2 bald in diese integriert werden. Stellen Sie sich vor, Sie setzen eine Brille auf und schauen sich in Ihrem Wohnzimmer um. Wenn Ihre Brille die Wasserschüssel Ihres Hundes segmentiert und bemerkt, erinnert sie Sie möglicherweise daran, sie nachzufüllen, wie in der Abbildung unten dargestellt. Oder wenn Sie ein neues Rezept kochen, könnte die Brille Zutaten auf Ihrer Arbeitsfläche identifizieren und Schritt-für-Schritt-Anleitungen und Tipps geben, wodurch Ihr Kocherlebnis verbessert und sichergestellt wird, dass Sie alle notwendigen Zutaten zur Hand haben.

Abb. 2. SAM 2 könnte bald in AR-Brillen verwendet werden.

Sonarbildgebung mit Segment Anything Model 2

Forschungen mit dem Modell SAM haben gezeigt, dass es in spezialisierten Bereichen wie der Sonarbildgebung eingesetzt werden kann. Die Sonarbildgebung bringt aufgrund ihrer geringen Auflösung, des hohen Rauschpegels und der komplexen Formen der Objekte innerhalb der Bilder einzigartige Herausforderungen mit sich. Durch die Feinabstimmung von SAM für Sonarbilder haben Forscher seine Fähigkeit demonstriert, verschiedene Unterwasserobjekte wie Meeresmüll, geologische Formationen und andere interessante Objekte genau zu segmentieren. Eine präzise und zuverlässige Unterwasserbildgebung kann in der Meeresforschung, Unterwasserarchäologie, Fischereimanagement und Überwachung für Aufgaben wie Habitatkartierung, Artefaktentdeckung und Bedrohungserkennung eingesetzt werden.

Abb. 3. Ein Beispiel für die Verwendung von feinabgestimmtem SAM zur Segmentierung von Sonarbildern.

Da SAM 2 auf vielen der Herausforderungen aufbaut und diese verbessert, denen sich SAM stellen muss, hat es das Potenzial, die Analyse der Sonarbildgebung weiter zu verbessern. Seine präzisen Segmentierungsfähigkeiten können bei verschiedenen maritimen Anwendungen helfen, einschließlich wissenschaftlicher Forschung und Fischerei. Zum Beispiel kann SAM 2 Unterwasserstrukturen effektiv umreißen, Meeresmüll erkennen und Objekte in vorwärtsgerichteten Sonarbildern identifizieren, was zu einer genaueren und effizienteren Unterwassererkundung und -überwachung beiträgt.

Hier sind die potenziellen Vorteile der Verwendung von SAM 2 zur Analyse von Sonarbildgebung:

  • Effizienz: Reduziert den Zeit- und Arbeitsaufwand für die manuelle Segmentierung, sodass sich Fachleute stärker auf die Analyse und Entscheidungsfindung konzentrieren können.
  • Konsistenz: Bietet konsistente und reproduzierbare Segmentierungsergebnisse, die für groß angelegte Meeresforschung und -überwachung unerlässlich sind.
  • Vielseitigkeit: Kann eine breite Palette von Sonarbildern verarbeiten, was es für verschiedene Anwendungen in der Meereswissenschaft und -industrie nützlich macht.

Durch die Integration von SAM 2 in Sonarbildgebungsprozesse kann die maritime Industrie eine höhere Effizienz, Genauigkeit und Zuverlässigkeit bei der Unterwassererkundung und -analyse erzielen, was letztendlich zu besseren Ergebnissen in der Meeresforschung führt.

Verwendung von SAM 2 in autonomen Fahrzeugen

Eine weitere Anwendung von SAM 2 liegt in autonomen Fahrzeugen. SAM 2 kann Objekte wie Fußgänger, andere Fahrzeuge, Straßenschilder und Hindernisse in Echtzeit genau identifizieren. Der Detailgrad, den SAM 2 liefern kann, ist entscheidend für sichere Navigation und Entscheidungen zur Kollisionsvermeidung. Durch die präzise Verarbeitung visueller Daten hilft SAM 2, eine detaillierte und zuverlässige Karte der Umgebung zu erstellen, was zu einer besseren Entscheidungsfindung führt.

Abb. 4. Verwendung der Segmentierung zum Verständnis des Verkehrs. 

Die Fähigkeit von SAM 2, unter verschiedenen Lichtverhältnissen, Wetteränderungen und dynamischen Umgebungen gut zu funktionieren, macht es für autonome Fahrzeuge zuverlässig. Ob es sich um eine belebte Stadtstraße oder eine neblige Autobahn handelt, SAM 2 kann Objekte konsistent identifizieren und segmentieren, sodass das Fahrzeug korrekt auf verschiedene Situationen reagieren kann. 

Es gibt jedoch einige Einschränkungen zu beachten. Bei komplexen, sich schnell bewegenden Objekten kann SAM 2 manchmal feine Details übersehen, und seine Vorhersagen können über Frames hinweg instabil werden. Außerdem kann SAM 2 manchmal mehrere ähnlich aussehende Objekte in überfüllten Szenen verwechseln. Diese Herausforderungen sind der Grund, warum die Integration zusätzlicher Sensoren und Technologien in autonomen Fahranwendungen von entscheidender Bedeutung ist.

Umweltüberwachung mit Hilfe von SAM 2

Die Umweltüberwachung mit Computer Vision kann schwierig sein, insbesondere wenn es an annotierten Daten mangelt, aber das macht sie auch zu einer interessanten Anwendung für SAM 2. SAM 2 kann verwendet werden, um Veränderungen in Naturlandschaften zu verfolgen und zu analysieren, indem verschiedene Umweltmerkmale wie Wälder, Gewässer, städtische Gebiete und landwirtschaftliche Flächen aus Satelliten- oder Drohnenbildern genau segmentiert und identifiziert werden. Insbesondere hilft die präzise Segmentierung bei der Überwachung von Entwaldung, Urbanisierung und Veränderungen der Landnutzung im Laufe der Zeit, um wertvolle Daten für den Umweltschutz und die Planung bereitzustellen.

Hier sind einige der Vorteile der Verwendung eines Modells wie SAM 2 zur Analyse von Umweltveränderungen im Laufe der Zeit:

  • Früherkennung: Identifiziert frühe Anzeichen von Umweltzerstörung und ermöglicht rechtzeitige Interventionen, um weitere Schäden zu verhindern.
  • Ressourcenmanagement: Unterstützt die effiziente Verwaltung natürlicher Ressourcen, indem detaillierte Einblicke in den Zustand verschiedener Umweltmerkmale gewährt werden.
  • Erhaltung der biologischen Vielfalt: Hilft bei der Verfolgung von Wildtieren und der Überwachung der biologischen Vielfalt und trägt so zu Naturschutzbemühungen und dem Schutz gefährdeter Arten bei.
  • Katastrophenhilfe: Hilft bei der Beurteilung der Auswirkungen von Naturkatastrophen wie Überschwemmungen, Waldbränden und Hurrikanen und ermöglicht eine schnelle und effektive Katastrophenhilfe und Wiederaufbauplanung.

Videobearbeitung mit SAM 2: Probieren Sie es selbst aus

Die Segment Anything 2 Demo ist eine großartige Möglichkeit, das Modell an einem Video auszuprobieren. Unter Nutzung der PVS-Funktionen von SAM 2 haben wir ein altes Ultralytics YouTube-Video genommen und konnten drei Objekte oder Personen im Video segmentieren und verpixeln. Traditionell wäre das Entfernen von drei Personen aus einem solchen Video zeitaufwendig und mühsam und würde eine manuelle Frame-by-Frame-Maskierung erfordern. SAM 2 vereinfacht diesen Prozess jedoch. Mit wenigen Klicks in der Demo können Sie die Identität von drei Objekten von Interesse in Sekundenschnelle schützen.

Abb. 6. Ausprobieren der SAM 2 Demo. 

Die Demo ermöglicht es Ihnen auch, verschiedene visuelle Effekte auszuprobieren, wie z. B. das Setzen eines Spotlights auf die Objekte, die Sie für die Verfolgung auswählen, und das Löschen der verfolgten Objekte. Wenn Ihnen die Demo gefallen hat und Sie bereit sind, mit SAM 2 Innovationen zu entwickeln, lesen Sie die Ultralytics SAM 2 Modelldokumentationsseite für detaillierte Anweisungen zum praktischen Umgang mit dem Modell. Entdecken Sie die Funktionen, Installationsschritte und Beispiele, um das Potenzial von SAM 2 in Ihren Projekten voll auszuschöpfen!

Zusammenfassung

Das Segment Anything Model 2 (SAM 2) von Meta AI verändert die Video- und Bildsegmentierung. Da sich Aufgaben wie die Objektverfolgung verbessern, entdecken wir neue Möglichkeiten in der Videobearbeitung, Mixed Reality, wissenschaftlichen Forschung und medizinischen Bildgebung. Indem SAM 2 komplexe Aufgaben vereinfacht und Annotationen beschleunigt, ist es bestens gerüstet, ein wichtiges Werkzeug für die KI-Community zu werden. Während wir weiterhin Modelle wie SAM 2 erforschen und Innovationen entwickeln, können wir noch bahnbrechendere Anwendungen und Fortschritte in verschiedenen Bereichen erwarten!

Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository erkunden und unserer Community beitreten. Auf unseren Lösungsseiten finden Sie detaillierte Einblicke in KI in der Fertigung und im Gesundheitswesen. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert