Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

FastVLM: Apple stellt sein neues schnelles Vision-Language-Modell vor

Abirami Vina

4 Min. Lesezeit

8. August 2025

Apple stellt FastVLM auf der CVPR 2025 vor. Dieses Open‑Source-Vision‑Language-Modell verfügt über den FastViTHD-Encoder und bietet eine bis zu 85 × schnellere Time‑to‑First‑Token.

Auf der CVPR 2025 Konferenz stellte Apple ein neues Open-Source-KI-Modell namens FastVLM vor. Es wurde entwickelt, um sowohl Bilder als auch Sprache zu verstehen, und läuft auf Apple-Geräten wie iPhones, iPads und Macs. Das bedeutet, dass es schnell intelligente Ergebnisse liefern kann, ohne Ihre Daten in die Cloud zu senden.

Was FastVLM besonders interessant macht, ist seine Geschwindigkeit und Effizienz. Apple hat einen neuen Vision Encoder namens FastViTHD entwickelt, der dem Modell hilft, qualitativ hochwertige Bilder zu interpretieren und gleichzeitig weniger Speicher und Energie zu verbrauchen. Die gesamte Verarbeitung findet lokal auf dem Gerät statt, was zu schnelleren Reaktionszeiten führt und gleichzeitig die Privatsphäre der Benutzer schützt.

In diesem Artikel werden wir untersuchen, wie FastVLM funktioniert, was es auszeichnet und warum diese Veröffentlichung von Apple ein bedeutender Schritt nach vorn für alltägliche KI-Anwendungen auf Ihren Geräten sein könnte.

Vision-Language-Modelle (VLMs) verstehen

Bevor wir uns damit beschäftigen, was FastVLM so besonders macht, wollen wir durchgehen, wofür das “VLM” in seinem Namen steht. Es bezieht sich auf ein Vision-Language-Modell, das entwickelt wurde, um visuelle Inhalte zu verstehen und mit Sprache zu verbinden.

VLMs vereinen visuelles Verständnis und Sprache und ermöglichen so Aufgaben wie das Beschreiben eines Fotos, das Beantworten von Fragen zu einem Screenshot oder das Extrahieren von Text aus einem Dokument. Vision-Language-Modelle arbeiten typischerweise in zwei Teilen: Der eine verarbeitet das Bild und wandelt es in Daten um, während der andere diese Daten interpretiert, um eine Antwort zu generieren, die Sie lesen oder hören können.

Sie haben diese Art von KI-Innovation vielleicht schon genutzt, ohne es überhaupt zu merken. Apps, die Quittungen scannen, Personalausweise lesen, Bildunterschriften generieren oder Menschen mit Sehschwäche bei der Interaktion mit ihren Bildschirmen helfen, basieren oft auf Vision-Language-Modellen, die unauffällig im Hintergrund laufen.

Was ist FastVLM?

Apple hat FastVLM entwickelt, um die gleichen Aufgaben wie andere Vision-Language-Modelle auszuführen, jedoch mit höherer Geschwindigkeit, stärkerem Datenschutz und optimierter Leistung auf den eigenen Geräten. Es kann den Inhalt eines Bildes verstehen und mit Text antworten, aber im Gegensatz zu vielen Modellen, die auf Cloud-Server angewiesen sind, kann FastVLM vollständig auf Ihrem iPhone, iPad oder Mac ausgeführt werden.

VLMs erzielen im Allgemeinen bessere Ergebnisse mit hochauflösenden Bildern. Wie beispielsweise unten gezeigt, konnte FastVLM ein Straßenschild nur dann korrekt als „Einfahrt verboten“ identifizieren, wenn eine hochauflösende Version des Bildes vorlag. Hochauflösende Eingaben verlangsamen Modelle jedoch in der Regel. Hier macht FastViTHD einen Unterschied.

Abb. 1. FastVLM-Leistung bei Bildern mit niedriger und hoher Auflösung. (Quelle)

Apples neuer Vision-Encoder FastViTHD hilft FastVLM, qualitativ hochwertige Bilder effizienter zu verarbeiten und dabei weniger Speicher und Strom zu verbrauchen. Insbesondere ist FastViTHD leicht genug, um auch auf kleineren Geräten reibungslos zu laufen.

FastVLM ist auch öffentlich im FastVLM GitHub-Repository verfügbar, wo Entwickler auf den Quellcode zugreifen, Änderungen vornehmen und ihn gemäß den Lizenzbedingungen von Apple in ihren eigenen Apps verwenden können.

Vergleich von FastVLM mit anderen VLM-Modellen

Im Vergleich zu anderen Vision-Language-Modellen ist FastVLM für die Ausführung auf Alltagsgeräten wie Smartphones und Laptops optimiert. In Leistungstests generierte FastVLM sein erstes Wort oder seine erste Ausgabe bis zu 85-mal schneller als Modelle wie LLaVA-OneVision-0.5B. 

Abb. 2. Vergleich der Leistung von FastVLM mit anderen Modellen. (Quelle)

Hier ist ein Einblick in einige der Standard-Benchmarks, an denen FastVLM evaluiert wurde:

  • DocVQA (Document Visual Question Answering): Dieser Benchmark bewertet, wie gut das Modell Textinformationen in Dokumenten, wie z. B. gescannten Formularen oder Seiten, lesen und verstehen kann.
  • TextVQA (Textbasiertes Visual Question Answering): Es bewertet die Fähigkeit des Modells, Bilder mit eingebettetem Text zu interpretieren und zugehörige Fragen präzise zu beantworten.
  • GQA (Graph Question Answering): Diese Aufgabe testet die Fähigkeit des Modells zum logischen Denken, indem es Beziehungen zwischen Objekten und Szenen innerhalb eines Bildes verstehen muss.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Es misst die Leistung des Modells in einer Vielzahl von akademischen Fächern und Formaten und kombiniert visuelles und textuelles Verständnis.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Dieser Benchmark untersucht die allgemeinen Fähigkeiten des Modells in Bezug auf visuelles Verständnis und logisches Denken in verschiedenen Bereichen.

Über diese Benchmarks hinweg erzielte FastVLM wettbewerbsfähige Ergebnisse und verbrauchte dabei weniger Ressourcen. Es bringt praktische visuelle KI auf Alltagsgeräte wie Telefone, Tablets und Laptops.

Der effiziente Vision Encoder von FastVLM: FastViTHD

Als Nächstes wollen wir uns FastViTHD genauer ansehen, den Vision Encoder, der eine entscheidende Rolle für die Bildverarbeitungsleistung von FastVLM spielt.

Die meisten Vision-Language-Modelle teilen ein Bild in Tausende von kleinen Bereichen auf, die als Token bezeichnet werden. Je mehr Token, desto mehr Zeit und Leistung benötigt das Modell, um das Bild zu verstehen. Dies kann die Prozesse verlangsamen, insbesondere auf Smartphones oder Laptops.

Abb. 3. Wie ein Vision Encoder ein Bild verarbeitet. (Quelle)

FastViTHD vermeidet die Verlangsamung, die durch die Verarbeitung von zu vielen Token entsteht, indem es weniger davon verwendet und trotzdem das gesamte Bild versteht. Es kombiniert zwei Ansätze: Transformer, die gut darin sind, Muster und Beziehungen zu modellieren, und Convolutional Layers, die visuelle Daten effizient verarbeiten. Das Ergebnis ist ein System, das schneller arbeitet und weniger Speicher verbraucht.

Laut Apple ist FastViTHD bis zu 3,4-mal kleiner als einige traditionelle Vision-Encoder und behält dennoch eine hohe Genauigkeit bei. Anstatt sich auf Modelloptimierungstechniken wie Token Pruning (Entfernen weniger wichtiger Bildbereiche zur Beschleunigung der Verarbeitung) zu verlassen, erreicht es Effizienz durch eine einfachere, schlankere Architektur.

Die Modellvarianten und die Training-Pipeline von FastVLM

Apple hat FastVLM in drei verschiedenen Größen veröffentlicht: 0,5B, 1,5B und 7B Parameter (wobei "B" für Billion steht und sich auf die Anzahl der trainierbaren Gewichte im Modell bezieht). Jede Version ist für verschiedene Gerätetypen ausgelegt. Die kleineren Modelle können auf Telefonen und Tablets ausgeführt werden, während das größere 7B-Modell besser für Desktops oder anspruchsvollere Aufgaben geeignet ist.

Dies gibt Entwicklern die Flexibilität, das zu wählen, was für ihre Apps am besten geeignet ist. Sie können etwas Schnelles und Leichtgewichtiges für Mobilgeräte oder etwas Komplexeres für größere Systeme entwickeln, und das alles mit der gleichen zugrunde liegenden Modellarchitektur.

Apple hat FastVLM-Modellvarianten mithilfe der LLaVA‑1.5-Pipeline trainiert, einem Framework zur Angleichung von Vision- und Sprachmodellen. Für die Sprachkomponente evaluierte Apple FastVLM mithilfe bestehender Open-Source-Modelle wie Qwen und Vicuna, die für die Generierung natürlicher und kohärenter Texte bekannt sind. Dieses Setup ermöglicht es FastVLM, sowohl einfache als auch komplexe Bilder zu verarbeiten und lesbare, relevante Antworten zu erzeugen.

Die Bedeutung von FastVLM: Apples effizienter Ansatz für KI

Sie fragen sich vielleicht, warum die effiziente Bildverarbeitung von FastVLM so wichtig ist? Es kommt darauf an, wie reibungslos Apps in Echtzeit funktionieren können, ohne auf die Cloud angewiesen zu sein. FastVLM kann hochauflösende Bilder mit bis zu 1152 x 1152 Pixeln verarbeiten und bleibt dabei schnell und leicht genug, um direkt auf Ihrem Gerät zu laufen.

Dies bedeutet, dass Apps beschreiben können, was die Kamera sieht, Belege beim Erfassen scannen oder auf Änderungen auf dem Bildschirm reagieren können, während alles lokal bleibt. Es ist besonders hilfreich für Bereiche wie Bildung, Barrierefreiheit, Produktivität und Fotografie.

Da FastViTHD auch bei großen Bildern effizient ist, trägt es dazu bei, dass Geräte reaktionsschnell und kühl bleiben. Es funktioniert mit allen Modellgrößen, einschließlich der kleinsten, die auf Einsteiger-iPhones läuft. Das bedeutet, dass die gleichen KI-Funktionen auf Telefonen, Tablets und Macs funktionieren können.

Anwendungen von FastVLM

FastVLM kann dank seiner wichtigsten Vorteile wie Geschwindigkeit, Effizienz und On-Device-Datenschutz eine breite Palette von Anwendungen unterstützen. Hier sind einige Beispiele für seine Einsatzmöglichkeiten:

  • Dokumente lesen: Es kann Quittungen, Formulare oder Ausweise scannen und nur die relevanten Informationen extrahieren. Es kann sich auf bestimmte Bereiche in einem Bild konzentrieren, was für Apps nützlich ist, die eine schnelle und genaue Textextraktion benötigen.
  • Bildunterschriften: Durch die Analyse eines Fotos kann es eine klare Beschreibung dessen generieren, was sich im Bild befindet. Dies unterstützt Funktionen in Kamera-Apps, Fotogalerien oder jedem Tool, das von einem visuellen Echtzeitverständnis profitiert.
  • Unterstützung für Barrierefreiheit: FastVLM kann Bildschirminhalte für Benutzer beschreiben, die blind oder sehschwach sind, wodurch Schaltflächen, Menüs und Layout-Elemente einfacher zu navigieren und zu verwenden sind.

On-Device-KI-Assistenten: FastVLM eignet sich gut für KI-Assistenten, die schnell verstehen müssen, was auf dem Bildschirm zu sehen ist. Da es direkt auf dem Gerät läuft und die Daten privat hält, kann es bei Aufgaben wie dem Lesen von Text, dem Erkennen von Schaltflächen oder Symbolen und der Echtzeit-Anleitung von Benutzern helfen, ohne dass Informationen an die Cloud gesendet werden müssen.

Abb. 4. FastVLM kann für Texterkennung und visuelle Fragebeantwortung verwendet werden. (Quelle)

Wesentliche Erkenntnisse

FastVLM bringt On-Device Vision-Language AI auf Apple-Geräte und kombiniert Geschwindigkeit, Datenschutz und Effizienz. Mit seinem leichtgewichtigen Design und der Open-Source-Veröffentlichung ermöglicht es das Echtzeit-Bildverständnis über mobile und Desktop-Apps hinweg. 

Dies trägt dazu bei, KI für den täglichen Gebrauch praktischer und zugänglicher zu machen und gibt Entwicklern eine solide Grundlage für die Entwicklung nützlicher, auf den Datenschutz ausgerichteter Anwendungen. Mit Blick auf die Zukunft werden Vision-Language-Modelle wahrscheinlich eine wichtige Rolle bei der Interaktion mit Technologie spielen und KI in Alltagssituationen reaktionsschneller, kontextbezogener und hilfreicher machen.

Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Treten Sie unserer aktiven Community bei und entdecken Sie Innovationen in Branchen wie KI in der Automobilindustrie und Vision AI in der Fertigung. Um noch heute mit Computer Vision zu beginnen, informieren Sie sich über unsere Lizenzoptionen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert