Die besten Modelle zur Objekterkennung für iOS auf Apple-Silicon-Chips

Möchten Sie ein Computer-Vision-Projekt umsetzen?

Android und iPhones sind aus dem Alltag nicht mehr wegzudenken. Die Menschen nutzen sie den ganzen Tag über zum Einkaufen, zur Navigation, zum Fotografieren, zum Scannen von Produkten und zur Nutzung von Apps.

Angesichts des rasanten Fortschritts im Bereich der künstlichen Intelligenz verfügen viele Smartphones mittlerweile über Funktionen, die die mit der Kamera des Geräts aufgenommenen Bilder und Videos auswerten können. Ob diese Funktionen effizient ausgeführt werden können, hängt weitgehend von der zugrunde liegenden Hardware ab.

Im Apple-Ökosystem beispielsweise werden Geräte wie iPhones, iPads und Macs von Apple-Silicon-Chips angetrieben, darunter die A- und M-Serien. Diese System-on-Chip-Designs (SoC) vereinen Zentralprozessoren (CPU), Grafikprozessoren (GPU) und spezielle Beschleuniger für maschinelles Lernen und ermöglichen so die Inferenz von KI-Workloads direkt auf dem Gerät.

Insbesondere werden Bildanalysefunktionen durch Computer Vision ermöglicht, einem Bereich der KI, der es Maschinen ermöglicht, visuelle Informationen aus Bildern und Videos mithilfe von Aufgaben wie der Objekterkennung zu interpretieren und zu verstehen.

Konkret analysieren Objekterkennungsmodelle Bilder und identifizieren Objekte, indem sie Begrenzungsrahmen um diese ziehen. Diese Modelle lassen sich so optimieren, dass sie auf mobiler Hardware wie Apple-Silicon-Chips effizient laufen, wodurch eine visuelle Echtzeitanalyse direkt auf iOS möglich wird.

Abb. 1: Ein Beispiel für die Objekterkennung, wobei die Objekte durch Begrenzungsrahmen gekennzeichnet sind. (Quelle)

‍

In diesem Artikel stellen wir einige der besten Modelle zur Objekterkennung vor, mit denen sich schnelle iOS in Echtzeit entwickeln lassen. Los geht’s!

So funktionieren Objekterkennungsfunktionen auf iOS

Die Objekterkennung unterstützt Apps dabei, Objekte in einem Bild zu erkennen und zu lokalisieren. Wenn eine App ein Eingabebild verarbeitet, kann ein Objekterkennungsmodell die Szene analysieren und verschiedene Objekte identifizieren, indem es Begrenzungsrahmen um sie herum platziert und ihnen Bezeichnungen zuweist.

Die meisten Objekterkennungssysteme basieren auf neuronalen Netzen, die Muster in Trainingsdaten erkennen können. Bei Bildverarbeitungsaufgaben lernen diese Modelle visuelle Darstellungen, indem sie Informationen auf Pixelebene aus umfangreichen Trainingsdatensätzen analysieren.

Faltungsneuronale Netze (CNNs) werden häufig als Grundlage für Modelle zur Objekterkennung verwendet. CNNs eignen sich hervorragend für Bildvorhersagen, da sie hierarchische visuelle Merkmale wie Kanten, Formen und Texturen lernen, die dem Modell helfen, Objekte innerhalb einer Szene zu erkennen.

Forscher untersuchen zudem Transformer-basierte Architekturen für Aufgaben im Bereich der Bildverarbeitung. Diese Modelle analysieren die Beziehungen zwischen verschiedenen Bildbereichen und erfassen umfassendere Kontextinformationen über die gesamte Szene hinweg.

Unabhängig von der Art der Modellarchitektur ist die Effizienz ein entscheidender Faktor bei der Objekterkennung auf iOS . Da diese Modelle direkt auf Mobilgeräten ausgeführt werden, müssen sie Bilder schnell verarbeiten und dabei mit begrenzten Rechenressourcen auskommen.

Effiziente Modelle sorgen für eine geringe Latenz und ermöglichen die Objekterkennung in Echtzeit in mobilen Apps, insbesondere bei der Analyse von kontinuierlichen Kameradaten.

Was macht ein Objekt-Erkennungsmodell für iOS besonders geeignet?

Bevor wir uns mit einigen der besten Modelle zur Objekterkennung für iOS befassen, wollen wir einen Schritt zurücktreten und uns zunächst einmal ansehen, was ein Modell für mobile Anwendungen so besonders macht.

Das ideale Objekt-Erkennungsmodell für eine iOS bietet ein ausgewogenes Verhältnis zwischen Leistung, Effizienz und Zuverlässigkeit. Hier sind einige wichtige Faktoren, die ein leistungsstarkes Modell für iOS auszeichnen:

Geringe Latenz: Das Modell sollte Bilder schnell verarbeiten, um die Objekterkennung in Echtzeit zu ermöglichen, insbesondere bei Anwendungen, die auf kontinuierliche Kameraeingaben angewiesen sind.
Effiziente Modellgröße: Kompakte Modelle laufen auf Mobilgeräten effizienter und benötigen in der Regel weniger Speicherplatz und Rechenressourcen.
Erkennungsgenauigkeit: Eine genaue Erkennung gewährleistet, dass Objekte korrekt klassifiziert werden und die Begrenzungsrahmen über verschiedene Szenen, Objektgrößen und Lichtverhältnisse hinweg präzise bleiben.
Stabilität der Bildverarbeitung: Eine über alle Bilder hinweg gleichbleibende Verarbeitungszeit ist für Echtzeitanwendungen wichtig. Starke Schwankungen bei der Verarbeitungszeit können zu Bildausfällen oder einer instabilen Kamerawiedergabe führen.‍
Speicherbedarf: Die Menge an RAM, die während der Inferenz benötigt wird, beeinflusst, wie reibungslos ein Modell neben anderen App-Prozessen auf iOS läuft.

Ein Überblick über die besten Modelle zur Objekterkennung für iOS

Werfen wir nun einen Blick auf einige der am häufigsten verwendeten Modelle zur Objekterkennung für iOS .

1. Ultralytics YOLO

YOLO Ultralytics sind eine beliebte Familie von Objekterkennungsmodellen, die für Echtzeit-Computer-Vision-Anwendungen entwickelt wurden. Im Laufe der Jahre Ultralytics Bildverarbeitungsmodelle wie Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11sowie das neueste Modell auf dem neuesten Stand der Technik, Ultralytics .

Jede neue Version hat Verbesserungen hinsichtlich Erkennungsgenauigkeit, Modelleffizienz und Laufzeitleistung mit sich gebracht. Dank dieser Aktualisierungen eignen sichYOLO Ultralytics zunehmend für Edge-Geräte wie Smartphones.

Abb. 2: Mit YOLO26 lassen sich detect Objekte in einer realen Szene detect . (Quelle)

‍

Einer der wichtigsten Vorteile der Verwendung Ultralytics YOLO für iOS ist die CoreML , die über das Python bereitgestellt wird. Diese Open-Source-Bibliothek unterstützt Entwickler dabei,YOLO mithilfe eines einfachen Arbeitsablaufs zu trainieren, zu testen und zu exportieren.

Das Paket unterstützt den Export trainierter Modelle in CoreML, Apples Format für maschinelles Lernen, das für die Bereitstellung von Modellen auf iOS verwendet wird. Nach dem Export kann das CoreML in eine App integriert und direkt auf dem Gerät unter Verwendung von Hardware wie CPU, GPU und Apple Neural Engine ausgeführt werden.

Abb. 3: CoreML Apples Framework zur Integration und Ausführung von KI-Modellen in Apps. (Quelle)

‍

Dadurch können Entwickler die Objekterkennung in Echtzeit ganz einfach in iOS integrieren, während die Modellinferenz auf dem Gerät selbst erfolgt.

Bereitstellungsoptionen für Ultralytics YOLO auf Apple Silicon

Über die Modelle hinaus bietet das Ultralytics eine Reihe von Optionen, die die Bereitstellung YOLO auf Apple-Silicon-Chips vereinfachen.

So hat Ultralytics beispielsweise Ultralytics Ultralytics eingeführt, die Datenmanagement, Modelltraining, Validierung und Bereitstellung in einer einzigen Umgebung vereint. Dieser einheitliche Arbeitsablauf verringert den Bedarf an mehreren Tools und trägt dazu bei, den Weg vom Experimentieren bis hin zur praktischen Anwendung zu optimieren.

Im Rahmen der Plattform können trainierte Modelle in verschiedene Formate exportiert werden, darunter auch CoreML Apple-Geräte. So lässt sich einYOLO mit nur wenigen Klicks für die Inferenz auf dem Gerät exportieren.

Neben den Exportfunktionen Ultralytics eine Open-Source-Implementierung für iOS in Swift (Apples Programmiersprache zur Entwicklung iOS ). Dazu gehört eine einsatzbereite iOS , die in Swift geschrieben ist und veranschaulicht, wie CoreML integriert, auf Kameradaten angewendet und für die Objekterkennung in Echtzeit genutzt werden können.

Weitere Vorteile derYOLO von Ultralytics

Hier sind einige weitere wichtige Merkmale, dieYOLO Ultralytics zu einer hervorragenden Wahl für die Entwicklung iOS machen:

Unterstützt eine Vielzahl von Aufgaben im Bereich der Bildverarbeitung: Neben der Objekterkennung könnenYOLO Ultralytics beispielsweise für die Segmentierung, die Posenschätzung, die Objektverfolgung, die Erkennung orientierter Begrenzungsrahmen (OBB) und die Bildklassifizierung eingesetzt werden.
Verschiedene Modellgrößen: Ultralytics verschiedene ModellvariantenUltralytics (wie Nano, Small, Medium, Large und Extra-Large), sodass Entwickler eine Version auswählen können, die den Leistungsanforderungen mobiler Geräte entspricht.
Vortrainierte Modelle: Die YOLO Ultralytics sind als vortrainierte Modelle verfügbar, die sofort einsatzbereit sind oder für bestimmte Aufgaben feinabgestimmt werden können, wodurch sich die Entwicklungszeit verkürzt.

2. EfficientDet

EfficientDet ist eine Architektur zur Objekterkennung, Google von Forschern bei Google vorgestellt wurde. Sie wurde entwickelt, um ein Gleichgewicht zwischen Erkennungsgenauigkeit und Recheneffizienz herzustellen, wodurch sie sich für Umgebungen mit begrenzten Ressourcen eignet.

Ein zentraler Gedanke hinter EfficientDet ist ein Skalierungsverfahren, das als „Compound Scaling“ bekannt ist. Anstatt nur einen Teil des Modells zu vergrößern, wie beispielsweise die Netzwerktiefe oder die Bildauflösung, skaliert dieser Ansatz mehrere Komponenten der Architektur gemeinsam.

Durch die gleichzeitige Anpassung dieser Elemente gewährleistet das Modell eine stabile Leistung, unabhängig davon, ob es auf hohe Genauigkeit ausgelegt oder für ressourcenschonende Bereitstellungen optimiert ist.

Die Architektur ist in mehreren Varianten erhältlich, von EfficientDet-D0 bis EfficientDet-D7. Die kleineren Modelle sind auf eine schnellere Inferenz und einen geringeren Ressourcenverbrauch ausgelegt, während die größeren Versionen auf eine höhere Erkennungsgenauigkeit ausgelegt sind.

3. MobileNet SSD

MobileNet SSD ist ein schlankes Modell zur Objekterkennung, das für den effizienten Einsatz auf Mobil- und Edge-Geräten entwickelt wurde. Es erlangte um das Jahr 2017 herum an Popularität.

Das Modell kombiniert das MobileNet-Backbone, das auf eine effiziente Merkmalsextraktion ausgerichtet ist, mit dem SSD-Ansatz (Single Shot Detector) zur Objekterkennung. Die SSD-Methode erkennt Objekte und generiert Begrenzungsrahmen in einem einzigen Vorwärtsdurchlauf.

Durch diesen Aufbau bleibt das Modell relativ schnell und einfach, was für Anwendungen von Vorteil ist, die schnelle Erkennungsergebnisse erfordern. MobileNet SSD wird häufig in Situationen eingesetzt, in denen eine geringere Modellgröße und schnellere Inferenzgeschwindigkeiten wichtig sind.

Die MobileNet-Architektur reduziert den Rechenaufwand, wodurch sich das Modell leichter auf Geräten mit begrenzter Rechenleistung ausführen lässt. Auch wenn MobileNet SSD möglicherweise nicht die gleiche Genauigkeit erreicht wie einige neuere Erkennungsarchitekturen, liefert es dennoch gute Ergebnisse bei vielen gängigen Objekterkennungsaufgaben.

4. CenterNet

CenterNet ist ein Modell zur Objekterkennung, das Objekte durch die Vorhersage ihrer Mittelpunkte identifiziert. Es wurde 2019 vorgestellt.

Anstatt zahlreiche mögliche Bereiche zu generieren, ermittelt das Modell den Mittelpunkt eines Objekts und schätzt anschließend die Größe des umgebenden Begrenzungsrahmens. Dieser Ansatz vereinfacht den Erkennungsprozess und reduziert die Anzahl der Schritte bei der Inferenz.

Abb. 3: Überblick über die Phasen der Objekterkennung in CenterNet (Quelle)

‍

CenterNet eignet sich für Erkennungsaufgaben in Echtzeit und ist im Vergleich zu einigen mehrstufigen Detektoren für seine relativ einfache Architektur bekannt. Varianten wie CenterNet mit ResNet-Backbones werden häufig in verschiedenen Anwendungen der Bildverarbeitung eingesetzt.

Dank seines effizienten Designs eignet sich CenterNet für Systeme, die eine schnelle Objekterkennung erfordern, darunter auch Anwendungen, die auf iOS laufen.

5. NanoDet

NanoDet ist ein ressourcenschonendes Modell zur Objekterkennung, das für Echtzeitanwendungen auf Edge- und Mobilgeräten entwickelt wurde. Es wurde 2020 mit dem Ziel eingeführt, eine effiziente Objekterkennung zu ermöglichen und gleichzeitig die Modellgröße und den Rechenaufwand sehr gering zu halten.

Das Modell nutzt eine einstufige Erkennungsarchitektur, wodurch es in der Lage ist, die Positionen und Kategorien von Objekten in einem einzigen Durchlauf durch das Netzwerk vorherzusagen. Durch diesen Aufbau bleibt das Modell schnell und eignet sich für Systeme mit begrenzten Hardware-Ressourcen.

NanoDet nutzt eine kompakte Grundstruktur und einen optimierten Erkennungskopf, um die Anzahl der bei der Inferenz erforderlichen Parameter und Berechnungen zu reduzieren. Diese Designentscheidungen tragen dazu bei, eine angemessene Erkennungsgenauigkeit zu gewährleisten und gleichzeitig Geschwindigkeit und Effizienz in den Vordergrund zu stellen.

Die Wahl des richtigen Objekterkennungsmodells für Ihre iOS

Die Auswahl eines Objekterkennungsmodells für eine iOS hängt oft von den spezifischen Anforderungen des jeweiligen Anwendungsfalls ab. Da diese Modelle direkt auf Geräten wie dem iPhone und dem iPad ausgeführt werden, beeinflussen mehrere Faktoren, welche Option am besten geeignet ist.

Hier sind einige wichtige Punkte, die Sie beachten sollten:

Energieeffizienz: Modelle mit geringerem Stromverbrauch schonen die Akkulaufzeit, was für mobile Apps, die kontinuierlich Kameradaten verarbeiten, von Bedeutung ist.
Modelloptimierung Unterstützung: Einige Modelle unterstützen Optimierungstechniken wie Quantisierung oder Pruning, wodurch die Modellgröße reduziert und die Leistung auf iOS verbessert werden kann.
Hardwarekompatibilität: Die von Ihnen gewählte Modellarchitektur sollte auf iOS , einschließlich CPU, GPU und Apples Neural Engine, effizient laufen.
Skalierbarkeit: Einige Architekturen bieten mehrere Modellgrößen oder -varianten an, sodass Entwickler die Versionen auswählen können, die den Leistungs- und Hardwareanforderungen am besten entsprechen.

Wesentliche Erkenntnisse

Objekterkennungsmodelle erweitern intelligente mobile Apps um fortschrittliche Funktionen der Bildverarbeitung. Da diese Modelle direkt auf iOS ausgeführt werden, ermöglichen sie es Apps, Bilder und Videos der Gerätekamera in Echtzeit zu analysieren. Durch die Auswahl des richtigen Modells können Entwickler reaktionsschnelle, bildverarbeitungsgestützte mobile Apps erstellen, die eine zuverlässige Echtzeitleistung bieten.

Werden Sie Teil unserer wachsenden Community und entdecken Sie in unserem GitHub-Repository praktische KI-Ressourcen. Wenn Sie noch heute mit Vision-KI arbeiten möchten, informieren Sie sich über unsere Lizenzoptionen. Auf unseren Lösungsseiten erfahren Sie, wie KI in der Landwirtschaft den Ackerbau verändert und wie Vision-KI in der Robotik die Zukunft gestaltet.

Die besten Modelle zur Objekterkennung für iOS auf Apple-Silicon-Chips

So funktionieren Objekterkennungsfunktionen auf iOS

Was macht ein Objekt-Erkennungsmodell für iOS besonders geeignet?

Ein Überblick über die besten Modelle zur Objekterkennung für iOS

1. Ultralytics YOLO

Bereitstellungsoptionen für Ultralytics YOLO auf Apple Silicon

Weitere Vorteile derYOLO von Ultralytics

2. EfficientDet

3. MobileNet SSD

4. CenterNet

5. NanoDet

Die Wahl des richtigen Objekterkennungsmodells für Ihre iOS

Wesentliche Erkenntnisse

Mehr in dieser Kategorie lesen

ImplementierungYOLO Ultralytics YOLO auf der Axelera-AI-Hardware für Edge-KI

Die besten Modelle zur Objekterkennung für iOS auf Apple-Silicon-Chips

Einsatz von Ultralytics YOLO unter Verwendung der ExecuTorch-Integration

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!