Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Inference Latency

Esplora l'importanza della latenza di inferenza nell'IA. Impara come ottimizzare le prestazioni in tempo reale con Ultralytics YOLO26 per applicazioni più veloci e reattive.

La latenza di inferenza rappresenta il ritardo temporale tra il momento in cui un modello di machine learning (ML) riceve un input — come un'immagine o un prompt testuale — e quello in cui produce un output o una previsione corrispondente. Nel contesto dell'intelligenza artificiale (AI), questa metrica viene solitamente misurata in millisecondi (ms) e funge da indicatore critico della reattività del sistema. Per gli sviluppatori che creano applicazioni di computer vision, comprendere e minimizzare la latenza è essenziale per creare esperienze utente fluide e interattive, in particolare quando si distribuiscono modelli in ambienti con risorse limitate come telefoni cellulari o dispositivi embedded.

Link to this sectionPerché la latenza di inferenza è importante#

Il significato della latenza di inferenza dipende fortemente dal caso d'uso specifico. Mentre un ritardo di alcuni secondi potrebbe essere accettabile per un'attività di batch processing come l'analisi di un report notturno del server, è spesso inaccettabile per le applicazioni interattive. Una bassa latenza è la pietra miliare dell'inferenza in tempo reale, dove i sistemi devono elaborare i dati e reagire istantaneamente.

Ridurre la latenza garantisce che gli agenti AI possano interagire naturalmente con gli esseri umani e che i sistemi automatizzati operino in sicurezza. Un'elevata latenza può portare a interfacce "lente", scarsa fidelizzazione dell'utente o, in scenari critici per la sicurezza, pericolosi guasti operativi. Spesso gli ingegneri devono bilanciare il compromesso tra la complessità del modello — che può migliorare l'accuratezza — e la velocità di esecuzione.

Link to this sectionFattori che influenzano la latenza#

Diversi componenti tecnici contribuiscono al tempo totale richiesto per un singolo passaggio di inferenza:

  • Architettura del modello: Il design della rete neurale (NN) è un fattore primario. I modelli profondi con molti strati richiedono generalmente più calcoli di quelli meno profondi. Le architetture moderne come YOLO26 sono specificamente ottimizzate per offrire un'elevata accuratezza con un sovraccarico computazionale minimo.
  • Capacità hardware: La scelta dell'unità di elaborazione influisce profondamente sulla velocità. Mentre una CPU è versatile, l'hardware specializzato come una GPU (Graphics Processing Unit) o una TPU (Tensor Processing Unit) è progettato per parallelizzare le operazioni di matrice fondamentali per il deep learning, riducendo significativamente la latenza.
  • Dimensione dell'input: L'elaborazione di frame video 4K ad alta risoluzione richiede più tempo rispetto all'elaborazione di immagini standard a 640p. Gli sviluppatori spesso ridimensionano gli input durante il data preprocessing per trovare il giusto equilibrio tra velocità e capacità di rilevare piccoli dettagli.
  • Tecniche di ottimizzazione: Metodi come la quantizzazione del modello (conversione dei pesi a una precisione inferiore) e il pruning del modello (rimozione di connessioni non necessarie) sono modi efficaci per velocizzare l'esecuzione. Strumenti come NVIDIA TensorRT possono ulteriormente ottimizzare i modelli per hardware specifici.

Link to this sectionApplicazioni nel mondo reale#

L'impatto della latenza di inferenza è meglio illustrato attraverso esempi pratici in cui la velocità non è negoziabile.

  1. Guida autonoma: Nel campo dell'AI in ambito automobilistico, un'auto a guida autonoma deve scansionare continuamente il proprio ambiente alla ricerca di pedoni, altri veicoli e segnali stradali. Se il sistema di object detection ha una latenza elevata, l'auto potrebbe non riuscire a frenare in tempo quando appare un ostacolo. Un ritardo anche di 100 millisecondi a velocità autostradali può tradursi in diversi metri di distanza percorsa, rendendo la bassa latenza un requisito critico per la sicurezza.

  2. High-Frequency Trading: Le istituzioni finanziarie utilizzano la modellazione predittiva per analizzare i trend di mercato ed eseguire operazioni. Questi algoritmi devono elaborare enormi quantità di dati e prendere decisioni in microsecondi. In questo ambito, una latenza inferiore si traduce direttamente in un vantaggio competitivo, consentendo alle aziende di capitalizzare fugaci opportunità di mercato prima che i concorrenti possano reagire.

Link to this sectionMisurare la latenza con Python#

Puoi misurare facilmente la velocità di inferenza dei modelli Ultralytics utilizzando la modalità benchmark. Questo aiuta a selezionare la giusta dimensione del modello per i tuoi vincoli hardware specifici.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Link to this sectionLatenza di inferenza vs Throughput#

È importante distinguere la latenza dal throughput, poiché sono concetti correlati ma distinti nella distribuzione dei modelli.

  • La latenza di inferenza misura il tempo per una singola previsione (ad esempio, "Ci sono voluti 20ms per elaborare questa immagine"). Questa è la metrica chiave per applicazioni in tempo reale e per singolo utente.
  • Il throughput misura il volume di previsioni nel tempo (ad esempio, "Il sistema ha elaborato 500 immagini al secondo"). Un throughput elevato si ottiene spesso aumentando la dimensione del batch, che elabora molti input contemporaneamente. Tuttavia, il batching può effettivamente aumentare la latenza per i singoli elementi in attesa nella coda.

L'ottimizzazione per l'uno spesso avviene a scapito dell'altro. Ad esempio, le applicazioni di Edge AI solitamente danno priorità alla latenza per garantire un feedback immediato, mentre le attività di data mining basate su cloud potrebbero dare priorità al throughput per gestire grandi dataset in modo efficiente.

Link to this sectionStrategie di ottimizzazione#

Gli sviluppatori impiegano varie strategie per minimizzare la latenza. Esportare i modelli in formati ottimizzati come ONNX o OpenVINO può generare significativi miglioramenti di velocità sulle CPU standard. Per le distribuzioni su dispositivi mobili, convertire i modelli in TFLite o CoreML assicura che vengano eseguiti in modo efficiente su dispositivi iOS e Android. Inoltre, l'utilizzo di architetture leggere come MobileNet o l'ultimo YOLO26 di Ultralytics garantisce che il modello fondamentale sia efficiente per design. Gli utenti possono anche sfruttare la Ultralytics Platform per distribuire facilmente i modelli in questi formati ottimizzati senza complesse configurazioni manuali.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning