Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

KI-Forschungsupdates von Meta FAIR: SAM 2.1 und CoTracker3

Abirami Vina

5 Min. Lesezeit

4. November 2024

Entdecken Sie die neuesten KI-Modelle von Meta FAIR, SAM 2.1 und CoTracker3, die fortschrittliche Segmentierungs- und Tracking-Funktionen für vielfältige, reale Anwendungen bieten.

Künstliche Intelligenz (KI) ist ein Forschungsgebiet, das in letzter Zeit von Aufregung und Energie geprägt ist, wobei neue Innovationen und Durchbrüche schneller als je zuvor auftauchen. In den letzten Wochen hat das Fundamental AI Research (FAIR)-Team von Meta eine Reihe von Tools und Modellen vorgestellt, die darauf abzielen, Herausforderungen in verschiedenen Bereichen der KI zu bewältigen. Diese Veröffentlichungen umfassen Aktualisierungen, die sich auf so unterschiedliche Bereiche wie das Gesundheitswesen, die Robotik und die Augmented Reality auswirken könnten.

Beispielsweise verbessert das aktualisierte SAM 2.1-Modell die Objektsegmentierung und erleichtert so die genaue Identifizierung und Trennung von Objekten in Bildern und Videos. CoTracker3 konzentriert sich unterdessen auf die Punkt-Verfolgung und hilft, Punkte in Videoframes auch dann zu verfolgen, wenn sich Objekte bewegen oder teilweise verdeckt werden. 

Meta hat außerdem leichtere, schnellere Versionen seines Llama-Sprachmodells für den effizienten Einsatz auf Geräten sowie eine neue taktile Sensortechnologie für die Robotik vorgestellt. In diesem Artikel werden wir die neuesten Veröffentlichungen von Meta FAIR aufschlüsseln und untersuchen, was die einzelnen Tools bieten. Los geht's!

Metas verbessertes Segment Anything Model: SAM 2.1

Objektsegmentierung, eine wichtige Aufgabe im Bereich Computer Vision, ermöglicht es, einzelne Objekte innerhalb eines Bildes oder Videos zu identifizieren und zu trennen, wodurch die Analyse bestimmter Interessensbereiche erleichtert wird. Seit seiner Veröffentlichung wird Meta’s Segment Anything Model 2 (SAM 2) für die Objektsegmentierung in verschiedenen Bereichen wie medizinischer Bildgebung und Meteorologie eingesetzt. Aufbauend auf dem Feedback der Community hat Meta nun SAM 2.1 vorgestellt, eine verbesserte Version, die einige der Herausforderungen des ursprünglichen Modells bewältigen und insgesamt eine stärkere Leistung bieten soll.

__wf_reserved_inherit
Abb. 1. SAM 2.1 Modell-Performance-Benchmarking.

SAM 2.1 enthält Aktualisierungen, um visuell ähnliche und kleinere Objekte besser zu verarbeiten, dank neuer Data Augmentation-Techniken. Es verbessert auch den Umgang des Modells mit Okklusion (wenn Teile eines Objekts nicht sichtbar sind), indem es auf längeren Videosequenzen trainiert wird, wodurch es Objekte im Laufe der Zeit "erinnern" und erkennen kann, selbst wenn sie vorübergehend verdeckt sind. Wenn beispielsweise jemand ein Video von einer Person dreht, die hinter einem Baum geht, kann SAM 2.1 die Person verfolgen, wenn sie auf der anderen Seite wieder auftaucht, indem es sich an die Position und Bewegung des Objekts erinnert, um Lücken zu füllen, wenn die Sicht kurzzeitig unterbrochen wird.

Zusätzlich zu diesen Aktualisierungen hat Meta die SAM 2 Developer Suite veröffentlicht, die Open-Source-Trainingscode und eine vollständige Demoinfrastruktur bereitstellt, sodass Entwickler SAM 2.1 mit ihren eigenen Daten feinabstimmen und in eine Reihe von Anwendungen integrieren können.

CoTracker3: Das Tracking-Modell von Meta sowie seine Funktionen und Aktualisierungen

Eine weitere interessante Computer-Vision-Aufgabe ist das Punkt-Tracking. Dabei werden bestimmte Punkte oder Merkmale über mehrere Frames in einem Video verfolgt. Stellen Sie sich ein Video eines Radfahrers vor, der eine Strecke entlangfährt - das Punkt-Tracking ermöglicht es dem Modell, Punkte auf dem Radfahrer, wie den Helm oder die Räder, zu verfolgen, selbst wenn sie für einen Moment durch Hindernisse verdeckt werden.

Die Punktverfolgung ist essenziell für Anwendungen wie 3D-Rekonstruktion, Robotik und Videobearbeitung. Traditionelle Modelle sind oft auf komplexe Setups und große synthetische Datensätze angewiesen, was ihre Effektivität bei der Anwendung auf reale Szenarien einschränkt. 

Das Tracking-Modell CoTracker3 von Meta behebt diese Einschränkungen, indem es die Architektur des Modells vereinfacht. Es führt auch eine Pseudo-Labeling-Technik ein, mit der das Modell aus realen, unannotierten Videos lernen kann, wodurch CoTracker3 effizienter und skalierbarer für den praktischen Einsatz wird.

__wf_reserved_inherit
Abb. 2. Vergleich von CoTracker3 mit anderen Tracking-Modellen.

Eines der Merkmale, die CoTracker3 auszeichnen, ist, dass es gut mit Verdeckungen umgehen kann. Durch die Verwendung von Cross-Track-Attention, einer Technik, die es dem Modell ermöglicht, Informationen über mehrere verfolgte Punkte hinweg auszutauschen, kann CoTracker3 die Positionen versteckter Punkte ableiten, indem es sich auf sichtbare Punkte bezieht. Dadurch ist CoTracker3 so konzipiert, dass es in dynamischen Umgebungen, wie z. B. dem Verfolgen einer Person durch eine überfüllte Szene, sehr effektiv ist. 

CoTracker3 bietet auch Online- und Offline-Modi. Der Online-Modus ermöglicht die Echtzeitverfolgung. Der Offline-Modus kann für eine umfassendere Verfolgung über ganze Videosequenzen hinweg verwendet werden, ideal für Aufgaben wie Videobearbeitung oder Animation

Weitere Updates und Forschungsergebnisse von Meta FAIR

Während SAM 2.1 und CoTracker3 die neuesten Fortschritte von Meta im Bereich Computer Vision demonstrieren, gibt es auch spannende Neuerungen in anderen Bereichen der KI, wie z. B. Natural Language Processing (NLP) und Robotik. Werfen wir einen Blick auf einige dieser anderen aktuellen Entwicklungen von Meta FAIR.

Meta's Spirit LM: KI-Innovationen in Sprach- und Multimodalen Modellen

Meta's Spirit LM ist ein neues multimodales Sprachmodell, das Text- und Sprachfunktionen kombiniert, wodurch sich die Interaktion mit KI natürlicher anfühlt. Im Gegensatz zu traditionellen Modellen, die nur Text oder nur Sprache verarbeiten, kann Spirit LM nahtlos zwischen den beiden wechseln. 

Spirit LM kann Sprache auf eine Weise verstehen und generieren, die sich menschlicher anfühlt. Zum Beispiel kann es virtuelle Assistenten verbessern, die sowohl zuhören als auch in gesprochener oder geschriebener Sprache antworten können, oder Barrierefreiheitstools unterstützen, die zwischen Sprache und Text konvertieren. 

__wf_reserved_inherit
Abb. 3. Ein Beispiel für Text-to-Speech mit Meta Spirit LM.

Darüber hinaus hat Meta Techniken entwickelt, um große Sprachmodelle effizienter zu gestalten. Eine davon, Layer Skip genannt, hilft, den Rechenbedarf und die Energiekosten zu senken, indem nur die für eine bestimmte Aufgabe notwendigen Schichten aktiviert werden. Dies ist besonders nützlich für Anwendungen auf Geräten mit begrenztem Speicher und begrenzter Leistung. 

Um der Notwendigkeit, KI-Anwendungen bereitzustellen, auf solchen Geräten noch einen Schritt weiter zu gehen, hat Meta auch quantisierte Versionen seiner Llama-Modelle herausgebracht. Diese Modelle sind komprimiert, um auf mobilen Geräten schneller zu laufen, ohne die Genauigkeit zu beeinträchtigen. 

Ein Blick auf die Zukunft der Optimierung mit Meta Lingua

Da KI-Modelle an Größe und Komplexität zunehmen, ist die Optimierung ihres Trainings-Prozesses von entscheidender Bedeutung geworden. In Bezug auf die Optimierung hat Meta Meta Lingua eingeführt, eine flexible und effiziente Codebasis, die das Trainieren von großen Sprachmodellen erleichtert. Das modulare Design von Meta Lingua ermöglicht es Forschern, ihre Experimente schnell anzupassen und zu skalieren. 

Forschende können weniger Zeit für die technische Einrichtung und mehr Zeit für die eigentliche Forschung aufwenden. Die Codebasis ist zudem schlank und einfach zu integrieren, wodurch sie sich sowohl für kleine Experimente als auch für groß angelegte Projekte eignet. Durch den Abbau dieser technischen Hürden hilft Meta Lingua Forschern, schneller Fortschritte zu erzielen und neue Ideen leichter zu testen.

__wf_reserved_inherit
Abb. 4. Eine Übersicht über Meta Lingua.

Metas Verbesserungen im Bereich der KI-Sicherheit

Mit dem Fortschritt der Quantencomputertechnologie entstehen neue Herausforderungen für die Datensicherheit. Im Gegensatz zu heutigen Computern werden Quantencomputer komplexe Berechnungen wahrscheinlich viel schneller lösen können. Das bedeutet, dass sie möglicherweise die Verschlüsselungsmethoden brechen könnten, die derzeit zum Schutz sensibler Daten verwendet werden. Deshalb wird die Forschung in diesem Bereich immer wichtiger - die Entwicklung neuer Methoden zum Schutz von Daten ist unerlässlich, während wir uns auf die Zukunft des Quantencomputings vorbereiten.

Um dem entgegenzuwirken, hat Meta Salsa entwickelt, ein Tool zur Stärkung der postquantenkryptografischen Sicherheit. Salsa hilft Forschern, KI-gesteuerte Angriffe zu testen und potenzielle Schwachstellen zu identifizieren, sodass sie die Schwachstellen in kryptografischen Systemen besser verstehen und beheben können. Durch die Simulation fortschrittlicher Angriffsszenarien liefert Salsa wertvolle Erkenntnisse, die die Entwicklung stärkerer und widerstandsfähigerer Sicherheitsmaßnahmen für das Quantenzeitalter leiten können.

KI bei Meta: Neueste Innovationen in der Robotik

Metas neueste Arbeit im Bereich der Robotik konzentriert sich darauf, KI dabei zu helfen, natürlicher mit der physischen Welt zu interagieren, indem sie die Berührungswahrnehmung, die Geschicklichkeit und die Zusammenarbeit mit Menschen verbessert. Insbesondere Meta Digit 360 ist ein fortschrittlicher taktiler Sensor, der Robotern einen verfeinerten Tastsinn verleiht. Die Sensoren helfen Robotern, Details wie Textur, Druck und sogar Objektformen zu erkennen. Aus diesen Erkenntnissen können Roboter Objekte präziser handhaben, was in Bereichen wie dem Gesundheitswesen und der Fertigung von entscheidender Bedeutung ist.

Hier sind einige der wichtigsten Funktionen, die der Meta Digit 360 beinhaltet:

  • Es ist mit 18 verschiedenen Sensorfunktionen ausgestattet, um eine Vielzahl von taktilen Details erfassen zu können.
  • Der Sensor kann Druckänderungen von nur 1 Millinewton erkennen, wodurch Roboter auf feine Texturen und subtile Bewegungen reagieren können.
  • Es umfasst über 8 Millionen Taxel (winzige Messpunkte) auf der Oberfläche der Fingerspitze und bietet so eine hochauflösende Karte der Tastinformationen.

Eine Erweiterung des Meta Digit 360 ist der Meta Digit Plexus, eine Plattform, die verschiedene Berührungssensoren auf einer einzigen Roboterhand integriert. Dieses Setup ermöglicht es Robotern, Berührungsinformationen von mehreren Punkten gleichzeitig zu verarbeiten, ähnlich wie menschliche Hände sensorische Daten sammeln.

__wf_reserved_inherit
Abb. 5. Der Meta Digit Plexus.

Die Weichen für das nächste Kapitel der KI sind gestellt

Metas neueste KI-Updates, die von Fortschritten in der Computer Vision mit SAM 2.1 und CoTracker3 bis hin zu neuen Entwicklungen in Sprachmodellen und der Robotik reichen, zeigen, wie sich KI stetig von der Theorie zu praktischen, wirkungsvollen Lösungen entwickelt. 

Diese Tools wurden entwickelt, um KI anpassungsfähiger und in verschiedenen Bereichen nützlicher zu machen. Sie helfen bei allem, von der Segmentierung komplexer Bilder über das Verständnis der menschlichen Sprache bis hin zur Zusammenarbeit mit uns in physischen Räumen. 

Indem Meta FAIR der Zugänglichkeit und der realen Anwendung Priorität einräumt, bringt es uns einer Zukunft näher, in der KI reale Herausforderungen bewältigen und unser tägliches Leben auf sinnvolle Weise verbessern kann. 

Sind Sie neugierig auf KI? Treten Sie unserer Community bei, um die neuesten Updates und Einblicke zu erhalten, und besuchen Sie unser GitHub-Repository. Sie können auch erkunden, wie Computer Vision in Branchen wie selbstfahrenden Autos und der Landwirtschaft eingesetzt werden kann!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert