Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

FastVLM: Apple stellt sein neues schnelles Vision-Language-Modell vor

Apple stellt FastVLM auf der CVPR 2025 vor. Dieses Open-Source-Vision-Language-Modell verwendet den FastViTHD-Encoder und ermöglicht eine bis zu 85 × schnellere Zeit bis zum ersten Token.

ABAbirami Vina
4 min read
Apples FastVLM schnelles Vision-Language-Modell

Auf der CVPR 2025 Konferenz stellte Apple ein neues Open-Source-KI-Modell namens FastVLM vor. Es wurde entwickelt, um sowohl Bilder als auch Sprache zu verstehen, und läuft auf Apple-Geräten wie iPhones, iPads und Macs. Das bedeutet, dass es schnell intelligente Ergebnisse liefern kann, ohne dass deine Daten in die Cloud gesendet werden müssen.

Was FastVLM besonders interessant macht, ist seine Geschwindigkeit und Effizienz. Apple hat einen neuen Vision-Encoder namens FastViTHD entwickelt, der dem Modell hilft, qualitativ hochwertige Bilder zu interpretieren und dabei weniger Speicher und Energie zu verbrauchen. Die gesamte Verarbeitung findet lokal auf dem Gerät statt, was zu schnelleren Reaktionszeiten führt und gleichzeitig die Privatsphäre der Nutzer schützt.

In diesem Artikel untersuchen wir, wie FastVLM funktioniert, was es auszeichnet und warum diese Veröffentlichung von Apple ein bedeutender Fortschritt für KI-Anwendungen im Alltag auf deinen Geräten sein könnte.

Link to this sectionVision-Language-Models (VLMs) verstehen#

Bevor wir uns ansehen, was FastVLM so besonders macht, klären wir kurz, wofür „VLM“ in seinem Namen steht. Es bezieht sich auf ein Vision-Language-Model, das darauf ausgelegt ist, visuelle Inhalte mit Sprache zu verbinden und zu verstehen.

VLMs kombinieren visuelles Verständnis mit Sprache und ermöglichen es, Aufgaben wie das Beschreiben eines Fotos, das Beantworten von Fragen zu einem Screenshot oder das Extrahieren von Text aus einem Dokument auszuführen. Vision-Language-Models arbeiten normalerweise in zwei Teilen: Einer verarbeitet das Bild und wandelt es in Daten um, während der andere diese Daten interpretiert, um eine Antwort zu generieren, die du lesen oder hören kannst.

Möglicherweise hast du diese Art von KI-Innovation bereits genutzt, ohne es überhaupt zu bemerken. Apps, die Belege scannen, Ausweise lesen, Bildunterschriften generieren oder Menschen mit Sehbehinderung bei der Interaktion mit ihren Bildschirmen helfen, basieren oft auf Vision-Language-Models, die unbemerkt im Hintergrund laufen.

Link to this sectionWas ist FastVLM?#

Apple hat FastVLM entwickelt, um dieselben Aufgaben wie andere Vision-Language-Models zu erfüllen, jedoch mit höherer Geschwindigkeit, mehr Privatsphäre und optimierter Leistung auf den eigenen Geräten. Es kann den Inhalt eines Bildes verstehen und mit Text antworten, aber im Gegensatz zu vielen Modellen, die auf Cloud-Server angewiesen sind, kann FastVLM vollständig auf deinem iPhone, iPad oder Mac ausgeführt werden.

VLMs funktionieren im Allgemeinen besser mit hochauflösenden Bildern. Wie unten gezeigt, konnte FastVLM beispielsweise ein Verkehrsschild nur dann korrekt als „Einfahrt verboten“ identifizieren, wenn eine hochauflösende Version des Bildes bereitgestellt wurde. Hochauflösende Eingaben verlangsamen Modelle jedoch normalerweise. Hier macht FastViTHD den Unterschied.

FastVLM-Leistung bei Bildern mit niedriger vs. hoher Auflösung

Abb. 1. FastVLM-Leistung bei niedriger vs. hoher Bildauflösung. (Quelle)

Apples neuer Vision-Encoder, FastViTHD, hilft FastVLM dabei, qualitativ hochwertige Bilder effizienter zu verarbeiten und dabei weniger Speicher und Energie zu verbrauchen. Insbesondere ist FastViTHD leicht genug, um selbst auf kleineren Geräten reibungslos zu laufen.

Außerdem ist FastVLM öffentlich im FastVLM GitHub Repository verfügbar, wo Entwickler auf den Quellcode zugreifen, Änderungen vornehmen und es gemäß den Lizenzbedingungen von Apple in ihren eigenen Apps verwenden können.

Link to this sectionVergleich von FastVLM mit anderen VLM-Modellen#

Im Vergleich zu anderen Vision-Language-Models ist FastVLM für den Betrieb auf Alltagsgeräten wie Smartphones und Laptops optimiert. In Leistungstests generierte FastVLM sein erstes Wort oder seine erste Ausgabe bis zu 85-mal schneller als Modelle wie LLaVA-OneVision-0.5B.

Vergleich der Leistung von FastVLM mit anderen Modellen

Abb. 2. Vergleich der Leistung von FastVLM mit anderen Modellen. (Quelle)

Hier ist ein Einblick in einige der Standard-Benchmarks, auf denen FastVLM bewertet wurde:

  • DocVQA (Document Visual Question Answering): Dieser Benchmark bewertet, wie gut das Modell Textinformationen in Dokumenten, wie z. B. gescannten Formularen oder Seiten, lesen und verstehen kann.
  • TextVQA (Text-based Visual Question Answering): Er beurteilt die Fähigkeit des Modells, Bilder zu interpretieren, die eingebetteten Text enthalten, und zugehörige Fragen präzise zu beantworten.
  • GQA (Graph Question Answering): Diese Aufgabe testet die logischen Fähigkeiten des Modells, indem es Beziehungen zwischen Objekten und Szenen innerhalb eines Bildes verstehen muss.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Er misst die Leistung des Modells über eine breite Palette akademischer Themen und Formate hinweg und kombiniert visuelles und textuelles Verständnis.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Dieser Benchmark erforscht die allgemeinen Fähigkeiten des Modells im visuellen Verständnis und logischen Schlussfolgern über mehrere Bereiche hinweg.

Bei diesen Benchmarks erzielte FastVLM wettbewerbsfähige Ergebnisse bei geringerem Ressourcenverbrauch. Es bringt praktische Vision-KI auf Alltagsgeräte wie Telefone, Tablets und Laptops.

Link to this sectionFastVLMs effizienter Vision-Encoder: FastViTHD#

Werfen wir als Nächstes einen genaueren Blick auf FastViTHD, den Vision-Encoder, der eine entscheidende Rolle bei der Bildverarbeitungsleistung von FastVLM spielt.

Die meisten Vision-Language-Models teilen ein Bild in tausende kleine Ausschnitte, sogenannte Tokens, auf. Je mehr Tokens, desto mehr Zeit und Energie benötigt das Modell, um das Bild zu verstehen. Dies kann besonders auf Telefonen oder Laptops die Dinge verlangsamen.

Wie ein Vision-Encoder ein Bild verarbeitet

Abb. 3. Wie ein Vision-Encoder ein Bild verarbeitet. (Quelle)

FastViTHD vermeidet die Verlangsamung, die durch die Verarbeitung zu vieler Tokens entsteht, indem es weniger davon verwendet, während es dennoch das gesamte Bild versteht. Es kombiniert zwei Ansätze: Transformer, die gut darin sind, Muster und Beziehungen zu modellieren, und konvolutionale Schichten, die effizient bei der Verarbeitung visueller Daten sind. Das Ergebnis ist ein System, das schneller arbeitet und weniger Speicher benötigt.

Laut Apple ist FastViTHD bis zu 3,4-mal kleiner als einige herkömmliche Vision-Encoder, wobei die hohe Genauigkeit beibehalten wird. Anstatt sich auf Modelloptimierungstechniken wie Token-Pruning (das Entfernen weniger wichtiger Bildausschnitte zur Beschleunigung der Verarbeitung) zu verlassen, erzielt es Effizienz durch eine einfachere, stromlinienförmigere Architektur.

Link to this sectionFastVLMs Modellvarianten und Trainings-Pipeline#

Apple hat FastVLM in drei verschiedenen Größen veröffentlicht: 0,5B, 1,5B und 7B Parameter (wobei „B“ für Milliarden steht und sich auf die Anzahl der trainierbaren Gewichte im Modell bezieht). Jede Version ist darauf ausgelegt, auf unterschiedliche Gerätetypen zu passen. Die kleineren Modelle können auf Telefonen und Tablets laufen, während das größere 7B-Modell besser für Desktops oder anspruchsvollere Aufgaben geeignet ist.

Dies gibt Entwicklern die Flexibilität, das zu wählen, was für ihre Apps am besten funktioniert. Sie können etwas Schnelles und Leichtes für mobile Anwendungen oder etwas Komplexeres für größere Systeme entwickeln, während sie dieselbe zugrunde liegende Modellarchitektur verwenden.

Apple trainierte die FastVLM-Modellvarianten unter Verwendung der LLaVA-1.5-Pipeline, einem Framework zur Abstimmung von Vision- und Language-Models. Für die Sprachkomponente bewerteten sie FastVLM unter Verwendung bestehender Open-Source-Modelle wie Qwen und Vicuna, die für die Generierung von natürlichem und kohärentem Text bekannt sind. Dieses Setup ermöglicht es FastVLM, sowohl einfache als auch komplexe Bilder zu verarbeiten und lesbare, relevante Antworten zu erzeugen.

Link to this sectionDie Bedeutung von FastVLM: Apples effizienter Ansatz für KI#

Du fragst dich vielleicht, warum die effiziente Bildverarbeitung von FastVLM wichtig ist? Es geht darum, wie reibungslos Apps in Echtzeit funktionieren können, ohne auf die Cloud angewiesen zu sein. FastVLM kann hochauflösende Bilder mit bis zu 1152 mal 1152 Pixeln verarbeiten und bleibt dabei schnell und leicht genug, um direkt auf deinem Gerät zu laufen.

Das bedeutet, dass Apps beschreiben können, was die Kamera sieht, Belege während der Aufnahme scannen oder auf Änderungen auf dem Bildschirm reagieren können – und das alles lokal. Dies ist besonders hilfreich für Bereiche wie Bildung, Barrierefreiheit, Produktivität und Fotografie.

Da FastViTHD selbst bei großen Bildern effizient ist, hilft es, Geräte reaktionsschnell und kühl zu halten. Es funktioniert mit allen Modellgrößen, einschließlich des kleinsten, das auf Einsteiger-iPhones läuft. Das bedeutet, dass dieselben KI-Funktionen auf Telefonen, Tablets und Macs funktionieren können.

Link to this sectionAnwendungen von FastVLM#

FastVLM kann dank seiner Hauptvorteile wie Geschwindigkeit, Effizienz und lokaler Privatsphäre eine Vielzahl von Anwendungen unterstützen. Hier sind einige Möglichkeiten, wie es eingesetzt werden kann:

  • Dokumente lesen: Es kann Belege, Formulare oder Ausweise scannen und nur die relevanten Informationen extrahieren. Es kann sich auf bestimmte Bereiche in einem Bild konzentrieren, was nützlich für Apps ist, die eine schnelle und genaue Textextraktion benötigen.

  • Bildunterschriften: Durch die Analyse eines Fotos kann es eine klare Beschreibung dessen generieren, was auf dem Bild zu sehen ist. Dies unterstützt Funktionen in Kamera-Apps, Fotogalerien oder jedem Tool, das von visuellem Echtzeitverständnis profitiert.

  • Unterstützung der Barrierefreiheit: FastVLM kann Bildschirminhalte für Benutzer beschreiben, die blind sind oder eine Sehbehinderung haben, wodurch Schaltflächen, Menüs und Layout-Elemente einfacher zu navigieren und zu verwenden sind.

  • On-Device-KI-Assistenten: FastVLM kann gut mit KI-Assistenten zusammenarbeiten, die schnell verstehen müssen, was auf dem Bildschirm zu sehen ist. Da es direkt auf dem Gerät läuft und Daten privat hält, kann es bei Aufgaben wie dem Lesen von Text, dem Identifizieren von Schaltflächen oder Symbolen und der Anleitung von Benutzern in Echtzeit helfen, ohne Informationen an die Cloud senden zu müssen.

FastVLM kann für Texterkennung und visuelle Fragenbeantwortung verwendet werden

Abb. 4. FastVLM kann für Texterkennung und visuelle Frage-Antwort-Systeme verwendet werden. (Quelle)

Link to this sectionWichtige Erkenntnisse#

FastVLM bringt Vision-Language-KI direkt auf Apple-Geräte und kombiniert Geschwindigkeit, Privatsphäre und Effizienz. Mit seinem leichten Design und der Open-Source-Veröffentlichung ermöglicht es visuelles Verständnis in Echtzeit für mobile und Desktop-Apps.

Dies macht KI praktischer und zugänglicher für den Alltag und bietet Entwicklern eine solide Grundlage für den Aufbau nützlicher, datenschutzorientierter Anwendungen. Mit Blick auf die Zukunft wird es wahrscheinlich so sein, dass Vision-Language-Models eine wichtige Rolle dabei spielen, wie wir mit Technologie interagieren, und KI reaktionsschneller, kontextbezogener und hilfreicher in alltäglichen Situationen machen.

Entdecke unser GitHub Repository, um mehr über KI zu erfahren. Werde Teil unserer aktiven Community und entdecke Innovationen in Bereichen wie KI in der Automobilindustrie und Vision-KI in der Fertigung. Um noch heute mit Computer Vision zu beginnen, sieh dir unsere Lizenzoptionen an.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens