Apple stellt FastVLM auf der CVPR 2025 vor. Dieses Open-Source-Modell der Bildverarbeitungssprache ist mit dem FastViTHD-Encoder ausgestattet, der eine bis zu 85-fache Beschleunigung der Zeit bis zum ersten Token ermöglicht.

Apple stellt FastVLM auf der CVPR 2025 vor. Dieses Open-Source-Modell der Bildverarbeitungssprache ist mit dem FastViTHD-Encoder ausgestattet, der eine bis zu 85-fache Beschleunigung der Zeit bis zum ersten Token ermöglicht.
Auf der CVPR-Konferenz 2025 hat Apple ein neues Open-Source-KI-Modell namens FastVLM vorgestellt. Es ist darauf ausgelegt, sowohl Bilder als auch Sprache zu verstehen, und läuft auf Apple-Geräten wie iPhones, iPads und Macs. Das bedeutet, dass es schnell intelligente Ergebnisse liefern kann, ohne dass Ihre Daten in die Cloud übertragen werden müssen.
Was FastVLM besonders interessant macht, ist die Schnelligkeit und Effizienz, mit der es arbeitet. Apple hat einen neuen Bildverarbeitungs-Encoder namens FastViTHD entwickelt, der dem Modell hilft, qualitativ hochwertige Bilder zu interpretieren und dabei weniger Speicher und Energie zu verbrauchen. Die gesamte Verarbeitung findet lokal auf dem Gerät statt, was zu schnelleren Reaktionszeiten führt, während die Privatsphäre des Nutzers gewahrt bleibt.
In diesem Artikel erfahren Sie, wie FastVLM funktioniert, was es auszeichnet und warum diese Apple-Version ein bedeutender Schritt nach vorn für alltägliche KI-Anwendungen auf Ihren Geräten sein könnte.
Bevor wir uns damit beschäftigen, was FastVLM so besonders macht, wollen wir kurz erläutern, wofür das "VLM" in seinem Namen steht. Es bezieht sich auf ein Vision-Language-Modell, das darauf ausgelegt ist, visuelle Inhalte zu verstehen und mit Sprache zu verbinden.
VLMs vereinen visuelles Verständnis und Sprache und können so Aufgaben wie die Beschreibung eines Fotos, die Beantwortung von Fragen zu einem Screenshot oder die Extraktion von Text aus einem Dokument übernehmen. Bild-Sprach-Modelle arbeiten in der Regel in zwei Teilen: Ein Teil verarbeitet das Bild und wandelt es in Daten um, während der andere Teil diese Daten interpretiert, um eine Antwort zu erzeugen, die Sie lesen oder hören können.
Vielleicht haben Sie diese Art von KI-Innovation bereits genutzt, ohne es zu merken. Apps, die Quittungen scannen, Ausweise lesen, Bildunterschriften generieren oder Menschen mit eingeschränktem Sehvermögen bei der Interaktion mit ihren Bildschirmen helfen, verlassen sich oft auf Modelle für die visuelle Sprache, die im Hintergrund laufen.
Apple hat FastVLM entwickelt, um die gleichen Aufgaben wie andere Bildsprachmodelle zu erfüllen, jedoch mit höherer Geschwindigkeit, stärkerem Datenschutz und optimierter Leistung auf den eigenen Geräten. Es kann den Inhalt eines Bildes verstehen und mit Text antworten, aber im Gegensatz zu vielen Modellen, die auf Cloud-Servern basieren, kann FastVLM vollständig auf Ihrem iPhone, iPad oder Mac laufen.
VLMs arbeiten im Allgemeinen besser mit hochauflösenden Bildern. Wie unten gezeigt, konnte FastVLM zum Beispiel ein Straßenschild nur dann korrekt als "Betreten verboten" identifizieren, wenn es eine hochauflösende Version des Bildes gab. Hochauflösende Eingaben verlangsamen jedoch in der Regel die Modelle. Hier macht FastViTHD den Unterschied.
Der neue Bildverarbeitungs-Encoder von Apple, FastViTHD, hilft FastVLM, hochwertige Bilder effizienter zu verarbeiten und dabei weniger Speicher und Energie zu verbrauchen. FastViTHD ist so leichtgewichtig, dass es auch auf kleineren Geräten reibungslos funktioniert.
Außerdem ist FastVLM auf dem FastVLM GitHub Repository öffentlich verfügbar, wo Entwickler auf den Quellcode zugreifen, Änderungen vornehmen und ihn in ihren eigenen Anwendungen in Übereinstimmung mit den Lizenzbedingungen von Apple verwenden können.
Im Vergleich zu anderen Bildverarbeitungs-Sprachmodellen ist FastVLM für den Einsatz auf Alltagsgeräten wie Smartphones und Laptops optimiert. In Leistungstests erzeugte FastVLM sein erstes Wort oder seine erste Ausgabe bis zu 85 Mal schneller als Modelle wie LLaVA-OneVision-0.5B.
Hier ein kleiner Einblick in einige der Standard-Benchmarks, mit denen FastVLM getestet wurde:
Bei diesen Benchmarks erzielte FastVLM konkurrenzfähige Ergebnisse bei geringerem Ressourcenverbrauch. Es bringt praktische visuelle KI auf Alltagsgeräte wie Telefone, Tablets und Laptops.
Als Nächstes wollen wir uns FastViTHD näher ansehen, den Bildverarbeitungs-Encoder, der eine entscheidende Rolle für die Bildverarbeitungsleistung von FastVLM spielt.
Die meisten Bildverarbeitungs-Sprachmodelle unterteilen ein Bild in Tausende kleiner Bereiche, die Token genannt werden. Je mehr Token, desto mehr Zeit und Leistung braucht das Modell, um das Bild zu verstehen. Dies kann zu einer Verlangsamung führen, insbesondere auf Telefonen oder Laptops.
FastViTHD vermeidet die Verlangsamung, die mit der Verarbeitung zu vieler Token einhergeht, indem es weniger Token verwendet, aber dennoch das gesamte Bild versteht. Es kombiniert zwei Ansätze: Transformatoren, die Muster und Beziehungen gut modellieren können, und Faltungsschichten, die visuelle Daten effizient verarbeiten können. Das Ergebnis ist ein System, das schneller arbeitet und weniger Speicherplatz benötigt.
Nach Angaben von Apple ist FastViTHD bis zu 3,4 Mal kleiner als einige herkömmliche Bildverarbeitungs-Encoder und bietet dennoch eine hohe Genauigkeit. Anstatt sich auf Modelloptimierungstechniken wie Token Pruning (Entfernen weniger wichtiger Bildbereiche zur Beschleunigung der Verarbeitung) zu verlassen, wird die Effizienz durch eine einfachere, schlankere Architektur erreicht.
Apple hat FastVLM in drei verschiedenen Größen veröffentlicht: 0,5B, 1,5B und 7B Parameter (wobei "B" für Milliarde steht und sich auf die Anzahl der trainierbaren Gewichte im Modell bezieht). Jede Version ist für unterschiedliche Gerätetypen ausgelegt. Die kleineren Modelle können auf Telefonen und Tablets eingesetzt werden, während das größere 7B-Modell besser für Desktops oder anspruchsvollere Aufgaben geeignet ist.
Dies gibt Entwicklern die Flexibilität zu wählen, was am besten für ihre Anwendungen geeignet ist. Sie können etwas Schnelles und Leichtgewichtiges für mobile Geräte oder etwas Komplexeres für größere Systeme entwickeln und dabei die gleiche zugrunde liegende Modellarchitektur verwenden.
Apple trainierte die FastVLM-Modellvarianten mit der LLaVA-1.5-Pipeline, einem Rahmenwerk für den Abgleich von Bildverarbeitungs- und Sprachmodellen. Für die Sprachkomponente wurde FastVLM mit bestehenden Open-Source-Modellen wie Qwen und Vicuna evaluiert, die dafür bekannt sind, natürlichen und kohärenten Text zu erzeugen. Auf diese Weise kann FastVLM sowohl einfache als auch komplexe Bilder verarbeiten und lesbare, relevante Antworten erzeugen.
Sie fragen sich vielleicht, warum die effiziente Bildverarbeitung von FastVLM so wichtig ist? Es kommt darauf an, wie reibungslos Anwendungen in Echtzeit arbeiten können, ohne auf die Cloud angewiesen zu sein. FastVLM kann hochauflösende Bilder mit einer Auflösung von bis zu 1152 x 1152 Pixeln verarbeiten und ist dabei schnell und leicht genug, um direkt auf Ihrem Gerät ausgeführt zu werden.
Das bedeutet, dass Apps beschreiben können, was die Kamera sieht, Belege scannen, wenn sie erfasst werden, oder auf Änderungen auf dem Bildschirm reagieren, während alles lokal bleibt. Besonders hilfreich ist dies für Bereiche wie Bildung, Barrierefreiheit, Produktivität und Fotografie.
Da FastViTHD auch bei großen Bildern effizient ist, sorgt es dafür, dass die Geräte reaktionsschnell und kühl bleiben. Es funktioniert mit allen Modellgrößen, einschließlich des kleinsten Modells, das auf iPhones der Einstiegsklasse läuft. Das bedeutet, dass die gleichen KI-Funktionen auf Handys, Tablets und Macs funktionieren.
FastVLM kann dank seiner Hauptvorteile wie Geschwindigkeit, Effizienz und Datenschutz auf dem Gerät eine breite Palette von Anwendungen unterstützen. Hier sind einige Möglichkeiten, wie es verwendet werden kann:
KI-Assistenten auf dem Gerät: FastVLM kann gut mit KI-Assistenten zusammenarbeiten, die schnell verstehen müssen, was auf dem Bildschirm angezeigt wird. Da es direkt auf dem Gerät ausgeführt wird und die Daten privat bleiben, kann es bei Aufgaben wie dem Lesen von Text, der Identifizierung von Schaltflächen oder Symbolen und der Benutzerführung in Echtzeit helfen, ohne Informationen an die Cloud senden zu müssen.
FastVLM bringt KI in Bildsprache auf Apple-Geräte und kombiniert Geschwindigkeit, Datenschutz und Effizienz. Mit seinem leichtgewichtigen Design und der Open-Source-Veröffentlichung ermöglicht es Bildverstehen in Echtzeit in mobilen und Desktop-Apps.
Dies trägt dazu bei, KI praktischer und für den täglichen Gebrauch zugänglicher zu machen, und bietet Entwicklern eine solide Grundlage für die Entwicklung nützlicher, datenschutzgerechter Anwendungen. Mit Blick auf die Zukunft ist es wahrscheinlich, dass bildsprachliche Modelle eine wichtige Rolle dabei spielen werden, wie wir mit Technologie interagieren, und KI reaktionsschneller, kontextbezogener und hilfreicher in alltäglichen Situationen machen.
Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Werden Sie Teil unserer aktiven Community und entdecken Sie Innovationen in Bereichen wie KI in der Automobilindustrie und Vision AI in der Fertigung. Wenn Sie noch heute mit Computer Vision beginnen möchten, sehen Sie sich unsere Lizenzierungsoptionen an.