I migliori modelli di rilevamento degli oggetti per iOS su chip Apple Silicon

Vuoi realizzare un progetto di visione artificiale?

Android e gli iPhone sono ormai diventati una necessità quotidiana. Le persone li utilizzano per fare acquisti, navigare, scattare foto, scansionare prodotti e interagire con le app durante tutta la giornata.

Con la rapida crescita dell'intelligenza artificiale, molti smartphone dispongono ormai di funzioni in grado di interpretare le immagini e i video ripresi dalla fotocamera del dispositivo. L'efficienza di queste funzioni dipende in gran parte dall'hardware su cui si basano.

Ad esempio, nell'ecosistema Apple, dispositivi come iPhone, iPad e Mac sono alimentati da chip Apple Silicon, tra cui quelli delle serie A e M. Questi sistemi su chip (SoC) integrano unità di elaborazione centrale (CPU), unità di elaborazione grafica (GPU) e acceleratori dedicati per l'apprendimento automatico, consentendo l'elaborazione sul dispositivo stesso dei carichi di lavoro legati all'intelligenza artificiale.

In particolare, le funzionalità di analisi delle immagini sono rese possibili dalla visione artificiale, un settore dell'intelligenza artificiale che consente alle macchine di interpretare e comprendere le informazioni visive provenienti da immagini e video attraverso attività quali il rilevamento degli oggetti.

Nello specifico, i modelli di rilevamento degli oggetti analizzano le immagini e identificano gli oggetti tracciando dei riquadri di delimitazione attorno ad essi. Questi modelli possono essere ottimizzati per funzionare in modo efficiente su hardware mobile, come i chip Apple Silicon, consentendo l'analisi visiva in tempo reale direttamente sul dispositivo stesso iOS .

Fig. 1. Un esempio di rilevamento di oggetti, con gli oggetti identificati tramite riquadri di delimitazione. (Fonte)

‍

In questo articolo vedremo alcuni dei migliori modelli di rilevamento degli oggetti per lo sviluppo iOS veloci e in tempo reale. Cominciamo!

Come funzionano i rilevatori di oggetti sui iOS

Il rilevamento degli oggetti aiuta le app a riconoscere e individuare gli oggetti presenti in un'immagine. Quando un'app elabora un'immagine in ingresso, un modello di rilevamento degli oggetti può analizzare la scena e identificare i diversi oggetti tracciando dei riquadri di delimitazione attorno ad essi e assegnando loro delle etichette.

La maggior parte dei sistemi di rilevamento degli oggetti si basa su reti neurali in grado di riconoscere schemi ricorrenti nei dati di addestramento. Per quanto riguarda le attività relative alle immagini, questi modelli apprendono rappresentazioni visive analizzando le informazioni a livello di pixel provenienti da grandi set di dati di addestramento.

Le reti neurali convoluzionali (CNN) sono spesso utilizzate come struttura portante dei modelli di rilevamento degli oggetti. Le CNN sono ideali per le previsioni sulle immagini perché apprendono caratteristiche visive gerarchiche quali bordi, forme e texture, che aiutano il modello a riconoscere gli oggetti all'interno di una scena.

I ricercatori stanno inoltre studiando architetture basate sui transformer per le attività di visione artificiale. Questi modelli analizzano le relazioni tra le diverse aree di un'immagine e rilevano informazioni contestuali più ampie relative all'intera scena.

Al di là del tipo di architettura del modello, l'efficienza è un fattore cruciale per il rilevamento di oggetti sui iOS . Poiché questi modelli vengono eseguiti direttamente sui dispositivi mobili, devono elaborare le immagini rapidamente utilizzando risorse computazionali limitate.

I modelli efficienti garantiscono una bassa latenza e supportano il rilevamento di oggetti in tempo reale nelle app mobili, in particolare durante l'analisi dei flussi video continui.

Cosa rende un modello di rilevamento degli oggetti particolarmente adatto a iOS?

Prima di addentrarci nell'analisi di alcuni dei migliori modelli di rilevamento degli oggetti per iOS, facciamo un passo indietro per capire cosa rende un modello ideale per le applicazioni mobili.

Il modello di rilevamento degli oggetti ideale per iOS garantisce un equilibrio tra prestazioni, efficienza e affidabilità. Ecco alcuni fattori chiave che caratterizzano un modello efficace per iOS :

Bassa latenza: il modello deve elaborare le immagini rapidamente per consentire il rilevamento degli oggetti in tempo reale, in particolare per le applicazioni che si basano su un flusso video continuo.
Dimensioni ottimizzate del modello: i modelli compatti funzionano in modo più efficiente sui dispositivi mobili e in genere richiedono meno memoria e risorse di calcolo.
Precisione del rilevamento: un rilevamento accurato garantisce che gli oggetti vengano classificati correttamente e che i riquadri di delimitazione rimangano precisi in diverse scene, indipendentemente dalle dimensioni degli oggetti e dalle condizioni di illuminazione.
Stabilità dell'inferenza: la costanza dei tempi di inferenza tra i fotogrammi è fondamentale per le applicazioni in tempo reale. Forti fluttuazioni nei tempi di elaborazione possono causare la perdita di fotogrammi o un funzionamento instabile della telecamera.‍
Impatto sulla memoria: la quantità di RAM richiesta durante l'inferenza influisce sulla fluidità di esecuzione del modello in concomitanza con altri processi dell'app sui iOS .

Una panoramica sui migliori modelli di rilevamento degli oggetti per iOS

Vediamo ora alcuni dei modelli di rilevamento degli oggetti più diffusi per iOS .

1.YOLO Ultralytics

YOLO Ultralytics costituiscono una famiglia molto diffusa di modelli di rilevamento di oggetti progettati per applicazioni di visione artificiale in tempo reale. Nel corso degli anni, Ultralytics rilasciato modelli di visione come Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11e l'ultimo modello all'avanguardia, Ultralytics .

Ogni nuova versione ha introdotto miglioramenti in termini di precisione di rilevamento, efficienza dei modelli e prestazioni di esecuzione. Questi aggiornamenti hanno resoYOLO Ultralytics sempre più adatti ai dispositivi edge, come gli smartphone.

Fig. 2. YOLO26 può essere utilizzato per detect oggetti in una scena reale. (Fonte)

‍

Uno dei principali vantaggi dell'utilizzoYOLO Ultralytics per iOS è CoreML offerta dal Python Ultralytics . Questa libreria open source consente agli sviluppatori di addestrare, testare ed esportareYOLO Ultralytics con un flusso di lavoro semplice.

Il pacchetto supporta l'esportazione dei modelli addestrati in CoreML, il formato di machine learning di Apple utilizzato per la distribuzione dei modelli sui iOS . Una volta esportato, il CoreML può essere integrato in un'app ed eseguito direttamente sul dispositivo utilizzando componenti hardware quali CPU, GPU e Apple Neural Engine.

Fig. 3. CoreML il framework di Apple per l'integrazione e l'esecuzione di modelli di intelligenza artificiale all'interno delle app. (Fonte)

‍

Ciò consente agli sviluppatori di integrare facilmente il rilevamento di oggetti in tempo reale nelle iOS , mantenendo l'inferenza del modello sul dispositivo.

Opzioni di implementazione deiYOLO Ultralytics su Apple Silicon

Oltre ai modelli stessi, Ultralytics offre una serie di opzioni che semplificano l'implementazione YOLO sui chip Apple Silicon.

Ad esempio, Ultralytics ha Ultralytics lanciato Ultralytics , una piattaforma che riunisce in un unico ambiente la gestione dei set di dati, l'addestramento dei modelli, la validazione e l'implementazione. Questo flusso di lavoro unificato riduce la necessità di ricorrere a più strumenti e contribuisce a semplificare il percorso dalla fase sperimentale alle applicazioni concrete.

Nell'ambito della piattaforma, i modelli addestrati possono essere esportati in diversi formati, tra cui CoreML i dispositivi Apple. Ciò consente di esportare unYOLO Ultralytics per l'inferenza sul dispositivo con pochi clic.

Oltre alle funzionalità di esportazione, Ultralytics un'implementazione open source in Swift (il linguaggio di programmazione di Apple utilizzato per sviluppare iOS ) per iOS. Ciò include iOS YOLO iOS pronta all'uso, scritta in Swift, che mostra come CoreML possano essere integrati, eseguiti sui dati provenienti dalla fotocamera e utilizzati per il rilevamento di oggetti in tempo reale.

Ulteriori vantaggi deiYOLO Ultralytics

Ecco alcune altre caratteristiche fondamentali che rendonoYOLO Ultralytics un'ottima scelta per lo sviluppo iOS :

Supporta una vasta gamma di attività di elaborazione visiva: oltre al rilevamento di oggetti,YOLO Ultralytics possono essere utilizzati, ad esempio, per la segmentazione di oggetti, la stima della posa, il tracciamento di oggetti, il rilevamento di bounding box orientati (OBB) e la classificazione delle immagini.
Diverse dimensioni dei modelli: Ultralytics diverse varianti di modelli (come nano, piccolo, medio, grande ed extra-grande), consentendo agli sviluppatori di scegliere la versione più adatta ai limiti prestazionali dei dispositivi mobili.
Modelli preaddestrati: i YOLO Ultralytics sono disponibili come modelli preaddestrati che possono essere utilizzati immediatamente o ottimizzati per compiti specifici, riducendo così i tempi di sviluppo.

2. EfficientDet

EfficientDet è un'architettura per il rilevamento di oggetti introdotta dai ricercatori di Google 2019. È stata progettata per garantire un equilibrio tra precisione di rilevamento ed efficienza computazionale, rendendola adatta ad ambienti con risorse limitate.

Un concetto fondamentale alla base di EfficientDet è un metodo di ridimensionamento noto come «ridimensionamento composto». Anziché aumentare solo una parte del modello, come la profondità della rete o la risoluzione dell'immagine, questo approccio ridimensiona contemporaneamente più componenti dell'architettura.

Regolando questi elementi contemporaneamente, il modello garantisce prestazioni stabili sia che sia configurato per garantire un'elevata precisione, sia che sia ottimizzato per implementazioni leggere.

L'architettura è disponibile in diverse varianti, che vanno da EfficientDet-D0 a EfficientDet-D7. I modelli più piccoli sono progettati per garantire un'inferenza più rapida e un minore consumo di risorse, mentre le versioni più grandi puntano a ottenere una maggiore precisione di rilevamento.

3. SSD MobileNet

MobileNet SSD è un modello leggero per il rilevamento di oggetti, progettato per funzionare in modo efficiente su dispositivi mobili e periferici. Ha iniziato a diffondersi intorno al 2017.

Il modello combina la struttura di base MobileNet, incentrata sull'estrazione efficiente delle caratteristiche, con l'approccio SSD (Single Shot Detector) per il rilevamento degli oggetti. Il metodo SSD rileva gli oggetti e genera i riquadri di delimitazione in un unico passaggio in avanti.

Questo design mantiene il modello relativamente veloce e semplice, il che risulta utile per le applicazioni che richiedono risultati di rilevamento rapidi. MobileNet SSD viene spesso utilizzato in contesti in cui sono fondamentali modelli di dimensioni ridotte e velocità di inferenza più elevate.

L'architettura MobileNet riduce la quantità di calcoli necessari, rendendo più semplice l'esecuzione del modello su dispositivi con potenza di elaborazione limitata. Sebbene MobileNet SSD possa non raggiungere lo stesso livello di precisione di alcune architetture di rilevamento più recenti, offre comunque buone prestazioni per molte attività comuni di rilevamento di oggetti.

4. CenterNet

CenterNet è un modello di rilevamento degli oggetti che identifica gli oggetti prevedendone i punti centrali. È stato introdotto nel 2019.

Anziché generare numerose aree candidate, il modello individua il centro di un oggetto e quindi calcola le dimensioni del riquadro di delimitazione che lo circonda. Questo approccio semplifica il processo di rilevamento e riduce il numero di passaggi necessari durante l'inferenza.

Fig. 3. Panoramica delle fasi di rilevamento degli oggetti in CenterNet (Fonte)

‍

CenterNet può essere utilizzato per attività di rilevamento in tempo reale ed è noto per la sua architettura relativamente semplice rispetto ad alcuni rilevatori multistadio. Varianti come CenterNet con backbone ResNet sono comunemente utilizzate in diverse applicazioni di visione artificiale.

Grazie al suo design efficiente, CenterNet è ideale per i sistemi che richiedono un rilevamento rapido degli oggetti, comprese le applicazioni in esecuzione su iOS .

5. NanoDet

NanoDet è un modello leggero per il rilevamento di oggetti, progettato per applicazioni in tempo reale su dispositivi edge e mobili. È stato introdotto nel 2020 con l'obiettivo di garantire un rilevamento efficiente degli oggetti, mantenendo al contempo dimensioni del modello e requisiti computazionali molto contenuti.

Il modello utilizza un'architettura di rilevamento a fase singola, che gli consente di prevedere la posizione e la categoria degli oggetti in un unico passaggio attraverso la rete. Questa struttura garantisce la rapidità del modello e lo rende adatto a sistemi con risorse hardware limitate.

NanoDet utilizza una struttura di base compatta e una testa di rilevamento ottimizzata per ridurre il numero di parametri e di calcoli necessari durante l'inferenza. Queste scelte progettuali consentono di mantenere un livello ragionevole di precisione nel rilevamento, dando al contempo priorità alla velocità e all'efficienza.

Scegliere il modello di rilevamento degli oggetti più adatto alla tua iOS

La scelta di un modello di rilevamento degli oggetti per iOS dipende spesso dai requisiti specifici del caso d'uso. Poiché questi modelli vengono eseguiti direttamente su dispositivi come iPhone e iPad, diversi fattori influenzano la scelta dell'opzione più adatta.

Ecco alcuni aspetti importanti da tenere in considerazione:

Efficienza energetica: i modelli che consumano meno energia contribuiscono a preservare la durata della batteria, aspetto importante per le app mobili che eseguono elaborazioni continue delle immagini della fotocamera.
Ottimizzazione dei modelli Supporto: alcuni modelli supportano tecniche di ottimizzazione come la quantizzazione o il pruning, che consentono di ridurre le dimensioni del modello e migliorare le prestazioni sui iOS .
Compatibilità hardware: l'architettura del modello scelta dovrebbe funzionare in modo efficiente iOS , inclusi CPU, GPU e Neural Engine di Apple.
Scalabilità: alcune architetture offrono modelli di diverse dimensioni o varianti, consentendo agli sviluppatori di scegliere le versioni più adatte alle prestazioni e ai requisiti hardware.

Punti chiave

I modelli di rilevamento degli oggetti offrono funzionalità avanzate di visione artificiale alle app mobili intelligenti. Funzionando direttamente sui iOS , questi modelli consentono alle app di analizzare in tempo reale immagini e video ripresi dalla fotocamera del dispositivo. Scegliendo il modello giusto, gli sviluppatori possono realizzare app mobili reattive e basate sulla visione artificiale, in grado di garantire prestazioni affidabili in tempo reale.

Entra a far parte della nostra comunità in continua crescita ed esplora il nostro repository GitHub per risorse pratiche sull'IA. Per iniziare subito a sviluppare con l'IA visiva, scopri le nostre opzioni di licenza. Scopri come l'IA in agricoltura sta trasformando l'agricoltura e come l'IA visiva nella robotica sta plasmando il futuro visitando le nostre pagine dedicate alle soluzioni.

I migliori modelli di rilevamento degli oggetti per iOS su chip Apple Silicon

Come funzionano i rilevatori di oggetti sui iOS

Cosa rende un modello di rilevamento degli oggetti particolarmente adatto a iOS?

Una panoramica sui migliori modelli di rilevamento degli oggetti per iOS

1.YOLO Ultralytics

Opzioni di implementazione deiYOLO Ultralytics su Apple Silicon

Ulteriori vantaggi deiYOLO Ultralytics

2. EfficientDet

3. SSD MobileNet

4. CenterNet

5. NanoDet

Scegliere il modello di rilevamento degli oggetti più adatto alla tua iOS

Punti chiave

Leggi di più in questa categoria

L'integrazioneYOLO Ultralytics nell'hardware Axelera AI per l'intelligenza artificiale periferica

I migliori modelli di rilevamento degli oggetti per iOS su chip Apple Silicon

Distribuire i modelli Ultralytics YOLO utilizzando l'integrazione ExecuTorch

Costruiamo insieme il futuro dell'intelligenza artificiale!