Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

KI-Forschungs-Updates von Meta FAIR: SAM 2.1 und CoTracker3

Erkunde die neuesten KI-Modelle von Meta FAIR, SAM 2.1 und CoTracker3, die fortschrittliche Segmentierungs- und Tracking-Funktionen für diverse, reale Anwendungen bieten.

ABAbirami Vina
5 min read
Meta FAIR KI-Forschung: SAM 2.1 und CoTracker3

Künstliche Intelligenz (KI) ist ein Forschungsbereich, der in letzter Zeit für viel Begeisterung und Energie sorgt, da neue Innovationen und Durchbrüche schneller als je zuvor erscheinen. In den letzten Wochen hat das Fundamental AI Research (FAIR)-Team von Meta eine Reihe von Tools und Modellen vorgestellt, die darauf abzielen, Herausforderungen in verschiedenen KI-Bereichen anzugehen. Diese Veröffentlichungen umfassen Updates, die Bereiche wie Gesundheitswesen, Robotik und Augmented Reality beeinflussen könnten.

Zum Beispiel verbessert das aktualisierte SAM 2.1-Modell die Objektsegmentierung und erleichtert es, Objekte in Bildern und Videos präzise zu identifizieren und zu trennen. CoTracker3 hingegen konzentriert sich auf die Punkt-Verfolgung und hilft dabei, Punkte in Video-Frames im Auge zu behalten, selbst wenn sich Objekte bewegen oder teilweise verdeckt sind.

Meta hat zudem leichtere und schnellere Versionen seines Llama-Sprachmodells für den effizienten Einsatz auf Geräten eingeführt, zusammen mit einer neuen taktilen Sensortechnologie für die Robotik. In diesem Artikel stellen wir diese neuesten Veröffentlichungen von Meta FAIR vor und schauen uns an, was jedes Tool bietet. Fangen wir an!

Link to this sectionMetas verbessertes Segment Anything Model: SAM 2.1#

Objektsegmentierung, eine zentrale Computer-Vision-Aufgabe, ermöglicht es, einzelne Objekte innerhalb eines Bildes oder Videos zu identifizieren und zu trennen, was die Analyse spezifischer Bereiche von Interesse erleichtert. Seit seiner Veröffentlichung wurde Metas Segment Anything Model 2 (SAM 2) für die Objektsegmentierung in verschiedenen Bereichen wie medizinische Bildgebung und Meteorologie eingesetzt. Basierend auf dem Feedback aus der Community hat Meta nun SAM 2.1 eingeführt, eine verbesserte Version, die entwickelt wurde, um einige der Herausforderungen des ursprünglichen Modells zu bewältigen und eine insgesamt stärkere Leistung zu liefern.

Leistungs-Benchmarking des SAM 2.1 Modells

Abb. 1. Benchmarking der SAM 2.1-Modellleistung.

SAM 2.1 enthält Updates, um visuell ähnliche und kleinere Objekte dank neuer Data-Augmentation-Techniken besser handhaben zu können. Es verbessert auch den Umgang des Modells mit Okklusion (wenn Teile eines Objekts verdeckt sind), indem es auf längeren Videosequenzen trainiert wird. Dies ermöglicht es dem Modell, sich an Objekte über die Zeit zu „erinnern“ und sie zu erkennen, selbst wenn sie vorübergehend blockiert sind. Wenn zum Beispiel jemand ein Video filmt, in dem eine Person hinter einem Baum entlanggeht, kann SAM 2.1 die Person verfolgen, während sie auf der anderen Seite wieder erscheint, indem es sein Gedächtnis über die Position des Objekts und seine Bewegung nutzt, um Lücken zu füllen, wenn die Sicht kurzzeitig unterbrochen wird.

Alongside these updates, Meta has released the SAM 2 Developer Suite, providing open-source training code and full demo infrastructure so developers can fine-tune SAM 2.1 with their own data and integrate it into a range of applications.

Link to this sectionCoTracker3: Metas Tracking-Modell sowie dessen Funktionen und Updates#

Eine weitere interessante Computer-Vision-Aufgabe ist das Punkt-Tracking. Es beinhaltet das Verfolgen spezifischer Punkte oder Merkmale über mehrere Frames hinweg in einem Video. Stell dir ein Video eines Radfahrers vor, der auf einer Bahn fährt – Punkt-Tracking ermöglicht es dem Modell, Punkte am Radfahrer, wie etwa den Helm oder die Räder, im Auge zu behalten, selbst wenn sie kurzzeitig durch Hindernisse verdeckt sind.

Punkt-Tracking ist unerlässlich für Anwendungen wie 3D-Rekonstruktion, Robotik und Videobearbeitung. Traditionelle Modelle stützen sich oft auf komplexe Setups und große synthetische Datensätze, was ihre Effektivität bei realen Szenarien einschränkt.

Metas CoTracker3-Tracking-Modell begegnet diesen Einschränkungen durch eine Vereinfachung der Modellarchitektur. Es führt zudem eine Pseudo-Labeling-Technik ein, die es dem Modell ermöglicht, aus echten, nicht annotierten Videos zu lernen, was CoTracker3 effizienter und skalierbarer für den praktischen Einsatz macht.

Vergleich von CoTracker3 mit anderen Tracking-Modellen

Abb. 2. Vergleich von CoTracker3 mit anderen Tracking-Modellen.

Eines der Merkmale, das CoTracker3 herausragen lässt, ist die Fähigkeit, gut mit Okklusionen umzugehen. Durch die Nutzung von Cross-Track Attention, einer Technik, die es dem Modell erlaubt, Informationen über mehrere verfolgte Punkte hinweg auszutauschen, kann CoTracker3 die Positionen versteckter Punkte ableiten, indem es auf sichtbare verweist. Auf diese Weise ist CoTracker3 darauf ausgelegt, in dynamischen Umgebungen äußerst effektiv zu sein, wie etwa beim Verfolgen einer Person durch eine überfüllte Szene.

CoTracker3 bietet zudem Online- und Offline-Modi. Der Online-Modus bietet Echtzeit-Tracking, während der Offline-Modus für umfassenderes Tracking über gesamte Videosequenzen hinweg genutzt werden kann, was ideal für Aufgaben wie Videobearbeitung oder Animation ist.

Link to this sectionWeitere Updates und Forschung von Meta FAIR#

Während SAM 2.1 und CoTracker3 Metas neueste Fortschritte im Bereich Computer Vision zeigen, gibt es auch spannende Updates in anderen Bereichen der KI, wie etwa der natürlichen Sprachverarbeitung (NLP) und Robotik. Werfen wir einen Blick auf einige dieser weiteren aktuellen Entwicklungen von Meta FAIR.

Link to this sectionMetas Spirit LM: KI-Innovationen in Sprach- und multimodalen Modellen#

Metas Spirit LM ist ein neues multimodales-Sprachmodell, das Text- und Sprachfähigkeiten kombiniert und Interaktionen mit KI natürlicher wirken lässt. Im Gegensatz zu traditionellen Modellen, die nur Text oder nur Sprache verarbeiten, kann Spirit LM nahtlos zwischen beidem wechseln.

Spirit LM kann Sprache auf eine Weise verstehen und generieren, die sich menschlicher anfühlt. Zum Beispiel kann es virtuelle Assistenten verbessern, die sowohl zuhören als auch in gesprochener oder geschriebener Sprache antworten können, oder Barrierefreiheits-Tools unterstützen, die zwischen Sprache und Text konvertieren.

Ein Beispiel für Text-to-Speech mit Meta Spirit LM

Abb. 3. Ein Beispiel für Text-zu-Sprache mit Meta Spirit LM.

Darüber hinaus hat Meta Techniken entwickelt, um große Sprachmodelle effizienter zu machen. Eine davon, Layer Skip genannt, hilft dabei, Rechenanforderungen und Energiekosten zu reduzieren, indem nur die Schichten aktiviert werden, die für eine bestimmte Aufgabe notwendig sind. Dies ist besonders nützlich für Anwendungen auf Geräten mit begrenztem Speicher und Leistung.

Um den Bedarf an der Bereitstellung von KI-Anwendungen auf solchen Geräten weiter zu adressieren, hat Meta auch quantisierte-Versionen seiner Llama-Modelle eingeführt. Diese Modelle sind komprimiert, um schneller auf Mobilgeräten zu laufen, ohne dabei an Genauigkeit einzubüßen.

Link to this sectionEin Blick in die Zukunft der Optimierung mit Meta Lingua#

Während KI-Modelle an Größe und Komplexität zunehmen, ist die Optimierung ihres Trainingsprozesses entscheidend geworden. Im Hinblick auf Optimierung hat Meta Meta Lingua eingeführt, eine flexible und effiziente Codebasis, die das Training von großen Sprachmodellen erleichtert. Das modulare Design von Meta Lingua ermöglicht es Forschern, ihre Experimente schnell anzupassen und zu skalieren.

Forscher können weniger Zeit mit technischem Setup und mehr Zeit mit eigentlicher Forschung verbringen. Die Codebasis ist zudem leichtgewichtig und einfach zu integrieren, was sie sowohl für kleine Experimente als auch für Großprojekte geeignet macht. Durch das Beseitigen dieser technischen Hürden hilft Meta Lingua Forschern dabei, schneller Fortschritte zu erzielen und neue Ideen einfacher zu testen.

Ein Überblick über Meta Lingua

Abb. 4. Ein Überblick über Meta Lingua.

Link to this sectionMetas Verbesserungen bei der KI-Sicherheit#

Mit dem Fortschritt der Quantencomputer-Technologie entstehen neue Herausforderungen für die Datensicherheit. Anders als heutige Computer werden Quantencomputer wahrscheinlich in der Lage sein, komplexe Berechnungen viel schneller zu lösen. Dies bedeutet, dass sie potenziell die Verschlüsselungsmethoden knacken könnten, die derzeit verwendet werden, um sensible Informationen zu schützen. Deshalb wird die Forschung in diesem Bereich immer wichtiger – die Entwicklung neuer Wege zum Schutz von Daten ist essenziell, während wir uns auf die Zukunft des Quantencomputings vorbereiten.

Um dies anzugehen, hat Meta Salsa entwickelt, ein Tool zur Stärkung der post-quantenkryptographischen Sicherheit. Salsa hilft Forschern dabei, KI-gesteuerte Angriffe zu testen und potenzielle Schwachstellen zu identifizieren, wodurch sie Schwachstellen in kryptographischen Systemen besser verstehen und adressieren können. Durch das Simulieren fortschrittlicher Angriffsszenarien liefert Salsa wertvolle Erkenntnisse, die die Entwicklung stärkerer und widerstandsfähigerer Sicherheitsmaßnahmen für das Quantenzeitalter leiten können.

Link to this sectionKI bei Meta: Neueste Innovationen in der Robotik#

Metas neueste Arbeit im Bereich Robotik konzentriert sich darauf, KI dabei zu helfen, natürlicher mit der physischen Welt zu interagieren, indem Tastsinn, Geschicklichkeit und die Zusammenarbeit mit Menschen verbessert werden. Insbesondere ist Meta Digit 360 ein fortschrittlicher taktiler Sensor, der Robotern einen verfeinerten Tastsinn verleiht. Die Sensoren helfen Robotern, Details wie Textur, Druck und sogar Objektformen zu erkennen. Dank dieser Erkenntnisse können Roboter Objekte mit mehr Präzision handhaben; etwas, das in Bereichen wie Gesundheitswesen und Fertigung entscheidend ist.

Hier sind einige der wichtigsten Merkmale, die das Meta Digit 360 beinhaltet:

  • Es ist mit 18 verschiedenen Sensorfunktionen ausgestattet, um eine breite Palette an taktilen Details erfassen zu können.
  • Der Sensor kann Druckänderungen von nur 1 Millinewton erkennen, was es Robotern ermöglicht, auf feine Texturen und subtile Bewegungen zu reagieren.
  • Es enthält über 8 Millionen Taxel (winzige Sensorpunkte) über die gesamte Oberfläche der Fingerspitze, was eine hochauflösende Karte an Tastinformationen liefert.

Eine Erweiterung des Meta Digit 360 ist das Meta Digit Plexus, eine Plattform, die verschiedene Tastsensoren in einer einzelnen Roboterhand integriert. Dieses Setup ermöglicht es Robotern, Tastinformationen von mehreren Punkten gleichzeitig zu verarbeiten, ähnlich wie menschliche Hände sensorische Daten sammeln.

Die Meta Digit Plexus Plattform zur taktilen Sensorik

Abb. 5. Das Meta Digit Plexus.

Link to this sectionDie Weichen für das nächste Kapitel der KI gestellt#

Metas neueste KI-Updates, von Fortschritten in der Computer Vision mit SAM 2.1 und CoTracker3 bis hin zu neuen Entwicklungen bei Sprachmodellen und Robotik, zeigen, wie KI stetig von der Theorie zu praktischen, wirkungsvollen Lösungen übergeht.

Diese Tools sind darauf ausgelegt, KI anpassungsfähiger und nützlicher in verschiedenen Bereichen zu machen und bei allem zu helfen, von der Segmentierung komplexer Bilder bis hin zum Verständnis menschlicher Sprache und sogar der Zusammenarbeit mit uns in physischen Räumen.

Indem Meta FAIR Barrierefreiheit und praktische Anwendung in den Vordergrund stellt, bringt es uns einer Zukunft näher, in der KI reale Herausforderungen bewältigen und unseren Alltag auf sinnvolle Weise verbessern kann.

Bist du neugierig auf KI? Tritt unserer Community bei, um die neuesten Updates und Einblicke zu erhalten, und schau dir unser GitHub-Repository an. Du kannst auch erkunden, wie Computer Vision in Branchen wie selbstfahrenden Autos und Landwirtschaft eingesetzt werden kann!

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens