Updates zur KI-Forschung von Meta FAIR: SAM 2.1 und CoTracker3

Abirami Vina

5 Minuten lesen

4. November 2024

Entdecken Sie die neuesten KI-Modelle von Meta FAIR, SAM 2.1 und CoTracker3, die fortschrittliche Segmentierungs- und Tracking-Funktionen für verschiedene, reale Anwendungen bieten.

Künstliche Intelligenz (KI) ist ein Forschungsgebiet, das in letzter Zeit vor Aufregung und Energie nur so strotzt, mit neuen Innovationen und Durchbrüchen, die schneller als je zuvor erscheinen. In den letzten Wochen hat das Team von Meta's Fundamental AI Research (FAIR) eine Reihe von Tools und Modellen vorgestellt, die auf die Bewältigung von Herausforderungen in verschiedenen Bereichen der KI abzielen. Diese Veröffentlichungen umfassen Updates, die sich auf so unterschiedliche Bereiche wie Gesundheitswesen, Robotik und erweiterte Realität auswirken könnten.

Das aktualisierte SAM 2.1-Modell verbessert beispielsweise die Objektsegmentierung, wodurch es einfacher wird, Objekte in Bildern und Videos genau zu identifizieren und zu trennen. CoTracker3 konzentriert sich auf die Punktverfolgung und hilft dabei, Punkte in Videobildern zu verfolgen, auch wenn sich Objekte bewegen oder teilweise verdeckt werden. 

Meta hat außerdem leichtere, schnellere Versionen seines Llama-Sprachmodells für die effiziente Nutzung auf dem Gerät eingeführt, zusammen mit einer neuen taktilen Sensortechnologie für die Robotik. In diesem Artikel werden wir diese neuesten Versionen von Meta FAIR unter die Lupe nehmen und untersuchen, was jedes Tool bietet. Los geht's!

Metas erweitertes Segment Anything Model: SAM 2.1

Die Segmentierung von Objekten, eine wichtige Aufgabe der Computer Vision, ermöglicht die Identifizierung und Trennung verschiedener Objekte in einem Bild oder Video und erleichtert so die Analyse bestimmter Bereiche von Interesse. Seit seiner Veröffentlichung wurde Metas Segment Anything Model 2 (SAM 2) für die Objektsegmentierung in verschiedenen Bereichen wie der medizinischen Bildgebung und der Meteorologie eingesetzt. Auf der Grundlage des Feedbacks aus der Community hat Meta nun SAM 2.1 eingeführt, eine verbesserte Version, die einige der Probleme des ursprünglichen Modells beheben und insgesamt eine höhere Leistung bieten soll.

__wf_reserved_inherit
Abb. 1. SAM 2.1 Modell-Leistungs-Benchmarking.

SAM 2.1 enthält Aktualisierungen, um dank neuer Datenerweiterungstechniken besser mit visuell ähnlichen und kleineren Objekten umgehen zu können. Außerdem wird der Umgang des Modells mit Verdeckungen (wenn Teile eines Objekts verdeckt sind) verbessert, indem es auf längeren Videosequenzen trainiert wird, so dass es sich Objekte im Laufe der Zeit "merken" und erkennen kann, auch wenn sie vorübergehend verdeckt sind. Wenn zum Beispiel jemand ein Video von einer Person filmt, die hinter einem Baum geht, kann SAM 2.1 die Person verfolgen, wenn sie auf der anderen Seite wieder auftaucht, und die Erinnerung an die Position und Bewegung des Objekts nutzen, um Lücken zu füllen, wenn die Sicht kurz unterbrochen ist.

Parallel zu diesen Aktualisierungen hat Meta die SAM 2 Developer Suite veröffentlicht, die Open-Source-Schulungscode und eine vollständige Demo-Infrastruktur bereitstellt, damit Entwickler SAM 2.1 mit ihren eigenen Daten feinabstimmen und in eine Reihe von Anwendungen integrieren können.

CoTracker3: Metas Tracking-Modell und seine Funktionen und Aktualisierungen

Eine weitere interessante Aufgabe der Computer Vision ist die Punktverfolgung. Dabei geht es darum, bestimmte Punkte oder Merkmale über mehrere Bilder in einem Video zu verfolgen. Nehmen wir das Video eines Radfahrers, der eine Strecke entlangfährt. Mit der Punktverfolgung kann das Modell Punkte auf dem Radfahrer verfolgen, z. B. den Helm oder die Räder, selbst wenn sie für einen Moment von Hindernissen verdeckt werden.

Die Punktverfolgung ist für Anwendungen wie 3D-Rekonstruktion, Robotik und Videobearbeitung unerlässlich. Herkömmliche Modelle beruhen häufig auf komplexen Konfigurationen und großen synthetischen Datensätzen, was ihre Effektivität bei der Anwendung auf reale Szenarien einschränkt. 

Das Tracking-Modell CoTracker3 von Meta behebt diese Einschränkungen, indem es die Architektur des Modells vereinfacht. Außerdem wird einePseudo-Labeling-Technik eingeführt, mit der das Modell aus echten, unkommentierten Videos lernen kann, wodurch CoTracker3 effizienter und für den praktischen Einsatz skalierbar wird.

__wf_reserved_inherit
Abb. 2. Vergleich von CoTracker3 mit anderen Tracking-Modellen.

Eines der Merkmale, die CoTracker3 auszeichnen, ist die Fähigkeit, mit Verdeckungen umzugehen. Mit Hilfe von Cross-Track-Attention, einer Technik, die es dem Modell ermöglicht, Informationen über mehrere verfolgte Punkte zu teilen, kann CoTracker3 die Positionen von verdeckten Punkten ableiten, indem er auf sichtbare Punkte verweist. Auf diese Weise ist CoTracker3 in der Lage, in dynamischen Umgebungen, z. B. bei der Verfolgung einer Person durch eine belebte Szene, äußerst effektiv zu arbeiten. 

CoTracker3 bietet außerdem einen Online- und einen Offline-Modus. Der Online-Modus ermöglicht die Verfolgung in Echtzeit. Der Offline-Modus kann für eine umfassendere Verfolgung ganzer Videosequenzen verwendet werden, ideal für Aufgaben wie Videobearbeitung oder Animation

Weitere Aktualisierungen und Untersuchungen von Meta FAIR

Während SAM 2.1 und CoTracker3 die neuesten Fortschritte von Meta im Bereich der Computer Vision zeigen, gibt es auch aufregende Updates in anderen Bereichen der KI, wie der Verarbeitung natürlicher Sprache (NLP) und der Robotik. Werfen wir einen Blick auf einige dieser anderen aktuellen Entwicklungen von Meta FAIR.

Meta's Spirit LM: KI-Innovationen in Sprache und multimodalen Modellen

Spirit LM von Meta ist ein neues multimodales Sprachmodell, das Text- und Sprachfähigkeiten kombiniert, wodurch sich Interaktionen mit KI natürlicher anfühlen. Im Gegensatz zu herkömmlichen Modellen, die nur Text oder nur Sprache verarbeiten, kann Spirit LM nahtlos zwischen beiden wechseln. 

Spirit LM kann Sprache auf eine Weise verstehen und erzeugen, die sich menschlicher anfühlt. So kann es beispielsweise virtuelle Assistenten verbessern, die sowohl zuhören als auch in gesprochener oder geschriebener Sprache antworten können, oder es kann Hilfsmittel für die Barrierefreiheit unterstützen, die zwischen Sprache und Text konvertieren. 

__wf_reserved_inherit
Abb. 3. Ein Beispiel für Text-to-Speech mit Meta Spirit LM.

Außerdem hat Meta Techniken entwickelt, um große Sprachmodelle effizienter zu machen. Eine davon, Layer Skip genannt, trägt dazu bei, den Rechenbedarf und die Energiekosten zu senken, indem nur die Schichten aktiviert werden, die für eine bestimmte Aufgabe erforderlich sind. Dies ist besonders nützlich für Anwendungen auf Geräten mit begrenztem Speicher und begrenzter Leistung. 

Um der Notwendigkeit, KI-Anwendungen auf solchen Geräten einzusetzen, noch einen Schritt näher zu kommen, hat Meta auch quantisierte Versionen seiner Llama-Modelle auf den Markt gebracht. Diese Modelle sind komprimiert, damit sie auf mobilen Geräten schneller laufen, ohne dass die Genauigkeit darunter leidet. 

Ein Blick in die Zukunft der Optimierung mit Meta Lingua

Da KI-Modelle immer größer und komplexer werden, ist die Optimierung ihres Trainingsprozesses von entscheidender Bedeutung. Im Hinblick auf die Optimierung hat Meta Meta Lingua eingeführt, eine flexible und effiziente Codebasis, die das Training großer Sprachmodelle erleichtert. Dank des modularen Designs von Meta Lingua können Forscher ihre Experimente schnell anpassen und skalieren. 

Die Forscher können weniger Zeit mit der technischen Einrichtung und mehr Zeit mit der eigentlichen Forschung verbringen. Die Codebasis ist außerdem schlank und einfach zu integrieren, so dass sie sich sowohl für kleine Experimente als auch für große Projekte eignet. Durch die Beseitigung dieser technischen Hürden hilft Meta Lingua den Forschern, schneller Fortschritte zu machen und neue Ideen einfacher zu testen.

__wf_reserved_inherit
Abbildung 4. Ein Überblick über Meta Lingua.

Metas Verbesserungen bei der KI-Sicherheit

Mit den Fortschritten der Quantencomputertechnologie ergeben sich auch neue Herausforderungen für die Datensicherheit. Im Gegensatz zu den heutigen Computern werden Quantencomputer komplexe Berechnungen wahrscheinlich viel schneller lösen können. Das bedeutet, dass sie möglicherweise die derzeit zum Schutz sensibler Daten verwendeten Verschlüsselungsmethoden brechen könnten. Aus diesem Grund wird die Forschung in diesem Bereich immer wichtiger - die Entwicklung neuer Methoden zum Schutz von Daten ist von entscheidender Bedeutung, wenn wir uns auf die Zukunft des Quantencomputers vorbereiten.

Zu diesem Zweck hat Meta Salsa entwickelt, ein Tool zur Stärkung der kryptografischen Post-Quantum-Sicherheit. Salsa hilft Forschern dabei, KI-gesteuerte Angriffe zu testen und potenzielle Schwachstellen zu identifizieren, damit sie die Schwachstellen in kryptografischen Systemen besser verstehen und beheben können. Durch die Simulation fortgeschrittener Angriffsszenarien liefert Salsa wertvolle Erkenntnisse, die die Entwicklung stärkerer, widerstandsfähigerer Sicherheitsmaßnahmen für das Quantenzeitalter leiten können.

KI bei Meta: Neueste Innovationen in der Robotik

Metas neueste Arbeiten im Bereich Robotik konzentrieren sich darauf, KI dabei zu unterstützen, natürlicher mit der physischen Welt zu interagieren, indem sie die Berührungswahrnehmung, die Geschicklichkeit und die Zusammenarbeit mit Menschen verbessern. Der Meta Digit 360 ist ein fortschrittlicher taktiler Sensor, der Robotern einen verfeinerten Tastsinn verleiht. Die Sensoren helfen Robotern, Details wie Textur, Druck und sogar die Form von Objekten zu erkennen. Dank dieser Erkenntnisse können Roboter Objekte mit größerer Präzision handhaben, was in Bereichen wie dem Gesundheitswesen und der Fertigung von entscheidender Bedeutung ist.

Hier sind einige der wichtigsten Funktionen, die das Meta Digit 360 bietet:

  • Er ist mit 18 verschiedenen Sensoren ausgestattet, um eine breite Palette von taktilen Details zu erfassen.
  • Der Sensor kann Druckveränderungen von nur 1 Millinewton erkennen und ermöglicht es Robotern, auf feine Strukturen und subtile Bewegungen zu reagieren.
  • Es enthält über 8 Millionen Taxel (winzige Messpunkte) auf der Oberfläche der Fingerspitze, die eine hochauflösende Karte der Berührungsinformationen liefern.

Eine Erweiterung des Meta Digit 360 ist der Meta Digit Plexus, eine Plattform, die verschiedene Berührungssensoren in eine einzige Roboterhand integriert. Auf diese Weise können Roboter Berührungsinformationen von mehreren Punkten gleichzeitig verarbeiten, ähnlich wie die menschlichen Hände sensorische Daten erfassen.

__wf_reserved_inherit
Abb. 5. Der Meta-Digit-Plexus.

Die Weichen für das nächste Kapitel der KI stellen

Die neuesten KI-Updates von Meta, die von Fortschritten in der Computer Vision mit SAM 2.1 und CoTracker3 bis hin zu neuen Entwicklungen in Sprachmodellen und Robotik reichen, zeigen, wie sich KI stetig von der Theorie zu praktischen, wirkungsvollen Lösungen entwickelt. 

Diese Werkzeuge sollen die KI in verschiedenen Bereichen anpassungsfähiger und nützlicher machen, von der Segmentierung komplexer Bilder über das Verstehen menschlicher Sprache bis hin zur Zusammenarbeit mit uns in physischen Räumen. 

Indem Meta FAIR den Schwerpunkt auf Zugänglichkeit und praktische Anwendung legt, bringt es uns einer Zukunft näher, in der KI reale Herausforderungen bewältigen und unser tägliches Leben auf sinnvolle Weise verbessern kann. 

Sind Sie neugierig auf KI? Treten Sie unserer Community bei, um die neuesten Updates und Erkenntnisse zu erhalten, und besuchen Sie unser GitHub-Repository. Sie können auch erkunden, wie Computer Vision in Branchen wie selbstfahrenden Autos und der Landwirtschaft eingesetzt werden kann!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert