Comprendere il ruolo degli FPS nella computer vision

Abirami Vina

4 minuti di lettura

20 marzo 2025

Scoprite perché gli FPS nella computer vision sono importanti e come influiscono sul rilevamento degli oggetti in tempo reale, sull'analisi video e sulle applicazioni basate sull'intelligenza artificiale.

Guardare un replay al rallentatore del vostro momento sportivo preferito, dove ogni dettaglio è chiaro, è molto diverso dal guardare un filmato di sorveglianza che di solito appare a scatti e difficile da seguire. Il dettaglio tecnico fondamentale alla base di queste differenze è l'FPS, o Frames Per Second, che si riferisce al numero di fotogrammi visualizzati al secondo in un video. Un FPS più elevato produce un movimento fluido e realistico, mentre un FPS più basso può portare a filmati a scatti e meno dettagliati.

Questo concetto ha un impatto diretto sulla computer vision, una branca dell'IA che consente alle macchine di interpretare e analizzare i dati visivi in modo simile a quello degli esseri umani. Nella computer vision, un FPS più elevato significa che i sistemi possono acquisire più informazioni al secondo, migliorando l'accuratezza del rilevamento e del tracciamento degli oggetti in tempo reale.

In questo articolo esploreremo gli aspetti tecnici degli FPS e il loro rapporto con le applicazioni di computer vision. Iniziamo!

Cosa significa FPS nella computer vision?

Supponiamo di giocare a un gioco di corse: a 60 FPS, ogni curva è fluida e reattiva, ma a 20 FPS i controlli sono lenti e diventa più difficile schivare gli ostacoli. In parole povere, si può pensare agli FPS come al numero di immagini fisse che vengono mostrate ogni secondo. Un numero maggiore di immagini al secondo fa sì che il movimento appaia fluido e naturale, mentre un numero minore di immagini può farlo sembrare frammentario.

Proprio come nei videogiochi, l'FPS è una parte fondamentale delle applicazioni di computer vision. Un FPS più elevato consente di tracciare gli oggetti con Vision AI in modo fluido, mentre un FPS più basso può far perdere dettagli. 

Ad esempio, nell'analisi sportiva, le telecamere dotate di intelligenza artificiale hanno bisogno di un FPS più elevato per poter tracciare passaggi veloci, movimenti dei giocatori e traiettorie della palla. Un FPS inferiore potrebbe far perdere di vista un importante contatto piede-palla o un rapido cambio di direzione, incidendo sull'accuratezza dell'analisi. 

Allo stesso modo, nel monitoraggio del traffico, i sistemi si affidano a FPS elevati per rilevare veicoli in velocità e cambi di corsia in tempo reale. La scelta del giusto FPS dipende dai requisiti specifici di ogni applicazione di computer vision, bilanciando prestazioni, efficienza e chiarezza visiva.

__wf_reserved_inherit
Figura 1. Confronto tra diverse frequenze di fotogrammi.

Aspetti tecnici degli FPS nella computer vision

Ora che abbiamo discusso di cos'è l'FPS e di come viene utilizzato nella computer vision, approfondiamo gli aspetti tecnici, a partire da come calcolare l'FPS di un video. 

Dividendo il numero totale di fotogrammi per la durata in secondi si ottiene l'FPS di un video. Ad esempio, se un video ha 96 fotogrammi su 4 secondi, si calcolano 24 FPS - il che significa che vengono visualizzate 24 immagini al secondo - mentre 32 fotogrammi su 4 secondi danno luogo a 8 FPS. Le librerie Python come OpenCV possono essere utilizzate per estrarre i metadati del video, contare i fotogrammi e calcolare automaticamente gli FPS, semplificando il processo di analisi video.

__wf_reserved_inherit
Fig 2. 24 FPS vs 8 FPS vs 4FPS.

Fattori che influenzano l'FPS di un video

Tuttavia, il solo calcolo degli FPS non è sufficiente per prendere decisioni tecniche nello sviluppo di soluzioni di visione artificiale. È importante considerare anche i vari fattori che possono influenzare la velocità effettiva dei fotogrammi, come le capacità dell'hardware, le ottimizzazioni del software e le condizioni ambientali. 

Ecco un'analisi più approfondita di questi fattori:

  • Capacità hardware: La qualità del sensore della fotocamera e la potenza di elaborazione del dispositivo possono determinare il numero di fotogrammi catturati al secondo. Un hardware migliore di solito significa supporto per un FPS più elevato e video più fluidi.
  • Ottimizzazioni del software: Un software di codifica ed elaborazione video efficiente aiuta a estrarre e analizzare rapidamente i fotogrammi. Ciò garantisce che il video venga elaborato senza inutili ritardi.
  • Condizioni ambientali: L'illuminazione e il movimento in una scena influenzano la chiarezza con cui vengono catturati i fotogrammi. Una buona illuminazione e un movimento moderato possono migliorare l'FPS, mentre condizioni scadenti potrebbero richiedere un FPS più elevato per mantenere la chiarezza.
  • Esigenze di archiviazione: Un FPS più elevato acquisisce un maggior numero di fotogrammi al secondo, con conseguenti maggiori dimensioni dei file. Ciò aumenta i requisiti di archiviazione e richiede un'elaborazione dei dati più rapida per garantire una riproduzione fluida.

Esplorazione degli FPS nelle applicazioni di visione artificiale

I modelli di intelligenza artificiale come Ultralytics YOLO11, che supportano attività di computer vision in tempo reale, possono essere utilizzati per analizzare video con frame rate elevati. Questa capacità in tempo reale è fondamentale per applicazioni come la guida autonoma, la sorveglianza e la robotica, dove anche piccoli ritardi possono portare a errori significativi. 

Vediamo alcune applicazioni Vision AI del mondo reale in cui un FPS elevato è essenziale per la precisione e le prestazioni. 

Un frame rate più elevato per le soluzioni di sorveglianza e sicurezza

I sistemi di sorveglianza che monitorano le aree ad alto traffico come le autostrade utilizzano un FPS elevato per catturare i minimi dettagli, assicurando che i veicoli in rapido movimento siano chiaramente documentati. Questa chiarezza è essenziale per i sistemi di riconoscimento automatico delle targhe (ANPR), che si basano su filmati di buona qualità per identificare con precisione i veicoli.

In questi sistemi, modelli come YOLO11 possono essere utilizzati per rilevare le targhe direttamente dal segnale video. Una volta rilevata la targa, il riconoscimento ottico dei caratteri (OCR), che converte le immagini di testo in caratteri leggibili dalla macchina, viene utilizzato per leggere i dettagli della targa. Questo processo consente un'identificazione rapida e precisa del veicolo, migliorando l'applicazione del codice della strada e la sicurezza generale.

__wf_reserved_inherit
Figura 3. Utilizzo di YOLO11 per rilevare le targhe.

Comprendere i requisiti FPS per i sistemi autonomi

Consideriamo un'auto a guida autonoma ferma a uno stop, che analizza attentamente l'ambiente circostante per decidere se può procedere in sicurezza. Questa auto deve prendere decisioni quasi istantanee, il che richiede l'acquisizione e l'elaborazione dei dati visivi in tempo reale. 

Se il veicolo autonomo è dotato di telecamere in grado di acquisire filmati a un FPS più elevato, riceve un flusso di immagini più continuo e dettagliato. Questo input visivo migliorato consente all'auto di rilevare rapidamente ostacoli, pedoni e altri veicoli. In questo modo, il veicolo può reagire prontamente a qualsiasi cambiamento nell'ambiente circostante.

Se le telecamere elaborano le immagini a un FPS inferiore, il veicolo potrebbe ricevere una visione più frammentata e meno dettagliata. Ciò potrebbe ritardare i tempi di risposta, aumentando il rischio di perdere informazioni critiche e potenzialmente compromettere la sicurezza.

Il legame tra FPS e analisi sportiva

Catturare ogni movimento con precisione è fondamentale nello sport, dove le decisioni in una frazione di secondo possono fare la differenza tra vittoria e sconfitta. La tecnologia che supporta un FPS più elevato ci permette di registrare ogni minimo dettaglio del movimento e gli allenatori, gli analisti e gli atleti possono rivedere le partite al rallentatore senza perdere un colpo. Inoltre, aiuta gli arbitri a prendere decisioni più precise in sport come il tennis, il calcio e il cricket, fornendo una visione chiara dell'azione fotogramma per fotogramma.

Ad esempio, un interessante studio sulla pallavolo ha analizzato come l'utilizzo di un FPS più elevato migliori la valutazione delle prestazioni. L'aumento degli FPS da 30 a 240 ha migliorato significativamente la chiarezza dei movimenti e il tracciamento degli oggetti. Anche l'accuratezza dell'analisi delle punte è migliorata, aiutando gli allenatori a comprendere con maggiore precisione il posizionamento delle mani, i punti di contatto con la palla e la meccanica dei salti. Inoltre, lo studio ha rilevato che un FPS più elevato riduce la sfocatura dei movimenti, rendendo più facile l'analisi dei servizi e delle reazioni difensive. 

__wf_reserved_inherit
Figura 4. Confronto tra FPS bassi e alti in relazione alla chiarezza del movimento.

Quando l'utilizzo di un FPS basso è efficace nell'analisi video

Non tutte le applicazioni di computer vision richiedono la registrazione di filmati a un FPS più elevato. In molti casi, un FPS inferiore è sufficiente per ottenere risultati accurati, a seconda dell'attività. Ecco alcune aree chiave in cui è preferibile un FPS inferiore:

  • Post-elaborazione e analisi offline: Per applicazioni come il monitoraggio del traffico e l'analisi della folla, non è sempre necessario acquisire ogni fotogramma a un FPS elevato. Un FPS più basso può comunque fornire dati sufficienti per analizzare i modelli di movimento, come il flusso di veicoli, la densità dei pedoni e le tendenze della congestione. Riducendo i fotogrammi ridondanti, questo approccio riduce al minimo i requisiti di archiviazione e il carico computazionale, mantenendo al contempo un'analisi accurata.
  • Monitoraggio ambientale time-lapse: Per seguire i cambiamenti lenti come la crescita delle piante, l'avanzamento dei lavori di costruzione o il movimento dei ghiacciai, è sufficiente catturare un fotogramma ogni pochi minuti o una volta al giorno, documentando efficacemente le trasformazioni a lungo termine e risparmiando spazio di archiviazione.
  • Ambienti con risorse limitate: Nel monitoraggio della fauna selvatica e nella sicurezza remota, una velocità di trasmissione inferiore aiuta a preservare la durata della batteria e lo spazio di archiviazione. Le telecamere con attivazione del movimento che operano a 5-10 FPS possono catturare eventi essenziali per periodi prolungati, il che le rende ideali per le installazioni off-grid.

Scegliere il giusto FPS per le applicazioni di deep learning

La scelta dell'FPS ideale richiede un bilanciamento delle prestazioni con i limiti del sistema. Ecco alcune considerazioni da tenere a mente quando si ottimizza l'FPS per le applicazioni di deep-learning:

  • Bilanciare prestazioni e risorse: Un FPS più elevato migliora la reattività, ma aumenta anche la richiesta di energia e di elaborazione. La regolazione dinamica dell'FPS, l'uso dell'interpolazione dei fotogrammi e l'ottimizzazione dell'hardware possono aiutare a mantenere prestazioni fluide senza sovraccaricare il sistema.
  • Esigenze specifiche dell'applicazione: Applicazioni diverse hanno requisiti FPS diversi. I dispositivi alimentati a batteria dovrebbero utilizzare FPS più bassi per risparmiare energia, mentre i sistemi in tempo reale come i droni e i veicoli autonomi hanno bisogno di FPS più elevati per risposte rapide e precise.
  • Test e ottimizzazione: Le impostazioni FPS dovrebbero essere testate in diverse condizioni di illuminazione e movimento. La valutazione della latenza e il confronto dei livelli di FPS aiutano a determinare il miglior equilibrio tra reattività, qualità visiva ed efficienza delle risorse.

Innovazioni future e ottimizzazione degli FPS per i modelli AI

I progressi dell'intelligenza artificiale e dell'ottimizzazione dell'hardware rendono possibili frame rate più elevati, anche in ambienti con risorse limitate. Ad esempio, settori come il cinema, lo sport e la robotica possono beneficiare di una gestione più intelligente del frame rate, in cui i sistemi regolano dinamicamente gli FPS in base alla complessità del movimento e alla potenza di elaborazione. L'interpolazione dei fotogrammi guidata dall'intelligenza artificiale migliora anche la fluidità dei video, generando fotogrammi aggiuntivi in tempo reale.

Nel frattempo, una recente scoperta di NVIDIA sta spingendo le prestazioni FPS ancora più in là. DLSS 4 (Deep Learning Super Sampling) introduce la generazione di fotogrammi multipli, che utilizza l'intelligenza artificiale per prevedere e creare fotogrammi extra. Questo aumenta la velocità dei fotogrammi fino a 8 volte, riducendo al contempo il carico di lavoro del sistema.

Lasciando che l'intelligenza artificiale gestisca parte del rendering, DLSS 4 rende le immagini più fluide senza gravare ulteriormente sull'hardware, migliorando sia le prestazioni che l'efficienza.

Punti di forza

L'FPS è molto più di una semplice misura della fluidità delle immagini: è alla base del processo decisionale in tempo reale nell'IA e nella computer vision. Ogni fotogramma di un video cattura dati critici, consentendo alle macchine di tracciare gli oggetti, analizzare il movimento e rispondere agli ambienti dinamici. Che si tratti di auto a guida autonoma che evitano gli ostacoli o di sistemi di sorveglianza che rilevano istantaneamente le minacce, il giusto FPS garantisce precisione ed efficienza.

Il futuro degli FPS non consiste solo nell'aumentare la frequenza dei fotogrammi, ma anche nell'ottimizzarli in modo intelligente. Questa evoluzione renderà i sistemi di computer vision più veloci, più innovativi e più efficienti dal punto di vista delle risorse in diversi settori.

Volete saperne di più sull'IA? Esplorate il nostro repository GitHub e unitevi alla nostra comunità. Siete pronti ad avviare i vostri progetti di computer vision? Scoprite le nostre opzioni di licenza. Scoprite come la computer vision nel settore sanitario sta migliorando l'efficienza ed esplorate l'impatto dell'IA nella produzione visitando le nostre pagine dedicate alle soluzioni!

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti