Can I deploy the same model to multiple regions?

Sì. Ogni modello può essere distribuito contemporaneamente in più regioni. Il numero di endpoint disponibili dipende dal piano scelto.

What's the difference between shared and dedicated inference?

L'inferenza condivisa viene eseguita su un servizio multi-tenant ed è soggetta a limiti di velocità, il che la rende ideale per lo sviluppo e il collaudo. Gli endpoint dedicati sono servizi single-tenant senza limiti di velocità, con una latenza costante e risorse configurabili, progettati per carichi di lavoro di produzione scalabili.

What is model deployment?

L'implementazione di un modello consiste nel rendere disponibile un modello di visione artificiale addestrato affinché possa ricevere ed elaborare dati reali. Una volta implementato, le applicazioni possono inviare immagini e fotogrammi video al modello tramite API e ricevere le previsioni. Sulla Ultralytics è possibile testare il proprio modello direttamente nel browser, implementarlo su un endpoint dedicato in una qualsiasi delle 43 regioni globali e monitorarne le prestazioni, il tutto dallo stesso spazio di lavoro.

Implementare modelli di visione artificiale a livello globale

Dashboard che mostra i parametri di prestazione del modello con mAP50 96,2%, mAP50 al 90,1% e precisione all'87,2%, insieme a un pannello dei log relativo al modello di segmentazione YOLO26s implementato a Parigi.

Scalabilità automatica che si adatta al tuo traffico

Gli endpoint dedicati aumentano la propria capacità in caso di picchi di traffico e si riducono a zero quando sono inattivi.

Per impostazione predefinita, il consumo è pari a zero. Non ci sono costi quando il tuo endpoint non riceve richieste.

Nessun limite di velocità. Gli endpoint dedicati non hanno limiti di larghezza di banda.

Risorse configurabili. Scegli CPU da 1 a 8 core) e la memoria (da 1 a 32 GB) in base al tuo carico di lavoro.

Oltre 17 formati di esportazione. Il tuo modello. Qualsiasi ambiente.

Ultralytics supporta l'implementazione sia su cloud che su dispositivi edge per garantire prestazioni elevate. TuttiYOLO Ultralytics sono ottimizzati in modo nativo per funzionare in modo efficiente in diversi ambienti, garantendo un'elevata precisione, prestazioni affidabili e compatibilità anche su dispositivi edge con risorse di calcolo limitate.

Elenco dei formati di esportazione per PyTorch , tra cui ONNX, TorchScript, OpenVINO, TensorRT GPU, CoreML e TF , con le rispettive icone e i codici di formato.

Dashboard che mostra 13.959 richieste totali, 3 distribuzioni attive, un tasso di errore dello 0% e una latenza P95 di 14 ms nelle ultime 24 ore.

Monitorare tutto ciò che è in produzione

Visibilità completa in tempo reale sulle prestazioni dei tuoi modelli. Una volta che i modelli sono attivi, la dashboard delle distribuzioni ti offre una panoramica centralizzata di ogni endpoint in esecuzione, con le metriche e gli strumenti necessari per ottimizzare i tuoi framework e garantirne un funzionamento affidabile.

Volume delle richieste. Totale delle richieste su tutti gli endpoint nelle ultime 24 ore.

Latenza P95. Tempo di risposta al 95° percentile per track le prestazioni in scenari d'uso track .

Tassi di errore. Ricevi avvisi chiari quando i tassi di errore superano il 5%, con registri filtrati in base alla gravità per diagnosticare rapidamente i problemi.

Controlli di integrità. Monitoraggio in tempo reale degli endpoint con riprova automatica. Visualizzazione della latenza per ogni controllo.

Domande frequenti

Posso distribuire lo stesso modello in più regioni?

Sì. Ogni modello può essere distribuito contemporaneamente in più regioni . Il numero totale di endpoint disponibili dipende dal piano scelto: 3 per il piano Free, 10 per il piano Pro e illimitato per il piano Enterprise. Ciò consente di servire gli utenti a livello globale con endpoint a bassa latenza in ogni regione.

Quanto costa l'implementazione?

Gli endpoint dedicati vengono fatturati in base CPU, alla memoria e al volume delle richieste. Poiché l'opzione "scale-to-zero" è abilitata per impostazione predefinita, paghi solo per il tempo di inferenza attivo; non ci sono costi quando l'endpoint non riceve richieste. L'inferenza condivisa è inclusa nel tuo piano della piattaforma.

Qual è la differenza tra inferenza condivisa e inferenza dedicata?

L'inferenza condivisa viene eseguita su un servizio multi-tenant distribuito su 3 regioni ed è soggetta a un limite di 20 richieste al minuto. È ideale per lo sviluppo e i test rapidi. Gli endpoint dedicati sono servizi single-tenant distribuiti in una qualsiasi delle 43 regioni, senza limiti di velocità, con latenza costante e risorse configurabili, progettati per carichi di lavoro di produzione scalabili.

Quanto tempo richiede l'implementazione?

L'implementazione di un endpoint dedicato richiede in genere da uno a due minuti. Ciò comprende il provisioning del container, l'avvio e un controllo iniziale dello stato di salute per verificare che il servizio sia pronto. Una volta che l'endpoint è pronto, inizia immediatamente ad accettare richieste di inferenza .

Cos'è il deployment di un modello?

La distribuzione dei modelli è il processo che rende disponibile un modello di visione artificiale addestrato per ricevere ed elaborare dati reali. Una volta distribuiti, le applicazioni di visione artificiale possono inviare immagini e fotogrammi video al modello tramite API e ricevere previsioni, consentendo operazioni che vanno dal controllo automatico della qualità al rilevamento di oggetti in tempo reale nei sistemi di produzione. Sulla Ultralytics , l'implementazione è integrata direttamente nel flusso di lavoro di addestramento end-to-end. Una volta addestrato il modello, è possibile testarlo nel browser, implementarlo su un endpoint dedicato in una qualsiasi delle 43 regioni globali e monitorarne le prestazioni, il tutto dallo stesso spazio di lavoro.

Implementare modelli di visione artificiale in 43 regioni del mondo

Prova il tuo modello nel browser

Feedback immediato

Parametri regolabili

Adatto a qualsiasi attività

Distribuzione in 43 regioni in tutto il mondo

Scalabilità automatica che si adatta al tuo traffico

Oltre 17 formati di esportazione. Il tuo modello. Qualsiasi ambiente.

Monitorare tutto ciò che è in produzione

Integrazione in pochi minuti

Scopri come effettuare l'implementazione!

Devi prima addestrare un modello?