ultralytics
Trasferisci i tuoi modelli addestrati dal browser agli endpoint di produzione con pochi clic, grazie al ridimensionamento automatico, al monitoraggio in tempo reale e a oltre 17 formati di esportazione. La soluzione end-to-end per l'implementazione in contesti reali.

43+
Aree di implementazione
17+
Formati di esportazione
500+
Implementazioni attive





Gli endpoint dedicati si espandono automaticamente per gestire i picchi di traffico e si riducono a zero quando sono inattivi, così non pagherai mai per risorse di calcolo che non utilizzi.
Per impostazione predefinita, il consumo è pari a zero. Non ci sono costi quando il tuo endpoint non riceve richieste.
Nessun limite di velocità. Nessun limite di velocità. A differenza dell'inferenza condivisa, gli endpoint dedicati non hanno limiti di throughput, ma sono limitati solo dalle risorse dell'endpoint stesso.
Risorse configurabili. Scegli il numero di CPU (da 1 a 8) e la memoria (da 1 a 32 GB) in base ai requisiti del tuo modello e ai modelli di traffico.
Ultralytics supporta sia l'implementazione su cloud che sull'edge. TuttiYOLO Ultralytics sono ottimizzati in modo nativo per funzionare in modo efficiente in diversi ambienti, garantendo prestazioni affidabili anche su hardware con risorse di calcolo limitate.


Visibilità completa e in tempo reale sulle prestazioni dei tuoi modelli. Una volta che i modelli sono attivi, la dashboard delle distribuzioni ti offre una panoramica centralizzata di tutti gli endpoint in esecuzione, con le metriche necessarie per garantire un funzionamento affidabile dei tuoi framework.
Volume delle richieste. Totale delle richieste su tutti gli endpoint nelle ultime 24 ore.
Latenza P95. Tempo di risposta al 95° percentile per track le prestazioni in scenari d'uso track .
Tassi di errore. Avvisi evidenziati quando i tassi di errore superano il 5%, con registri filtrati in base alla gravità per aiutarti a diagnosticare rapidamente i problemi.
Controlli di integrità. Indicatori di stato in tempo reale con riprova automatica quando gli endpoint non sono integri. La latenza di risposta viene visualizzata accanto a ciascun controllo.
Ogni endpoint implementato include esempi di codice generati automaticamente in Python, JavaScript e cURL, già precompilati con l'URL effettivo dell'endpoint e la chiave API. Basta copiare, incollare e iniziare a inviare richieste di inferenza da qualsiasi applicazione.

Sì. Ogni modello può essere distribuito contemporaneamente in più regioni . Il numero totale di endpoint disponibili dipende dal piano scelto: 3 per il piano Free, 10 per il piano Pro e illimitato per il piano Enterprise. Ciò consente di servire gli utenti a livello globale con endpoint a bassa latenza in ogni regione.
Gli endpoint dedicati vengono fatturati in base CPU, alla memoria e al volume delle richieste. Poiché l'opzione "scale-to-zero" è abilitata per impostazione predefinita, paghi solo per il tempo di inferenza attivo; non ci sono costi quando l'endpoint non riceve richieste. L'inferenza condivisa è inclusa nel tuo piano della piattaforma.
L'inferenza condivisa viene eseguita su un servizio multi-tenant distribuito su 3 regioni ed è soggetta a un limite di 20 richieste al minuto. È ideale per lo sviluppo e i test rapidi. Gli endpoint dedicati sono servizi single-tenant distribuiti in una qualsiasi delle 43 regioni, senza limiti di velocità, con latenza costante e risorse configurabili, progettati per carichi di lavoro di produzione scalabili.
L'implementazione di un endpoint dedicato richiede in genere da uno a due minuti. Ciò comprende il provisioning del container, l'avvio e un controllo iniziale dello stato di salute per verificare che il servizio sia pronto. Una volta che l'endpoint è pronto, inizia immediatamente ad accettare richieste di inferenza .
La distribuzione dei modelli è il processo che rende disponibile un modello di visione artificiale addestrato per ricevere ed elaborare dati reali. Una volta distribuiti, le applicazioni di visione artificiale possono inviare immagini e fotogrammi video al modello tramite API e ricevere previsioni, consentendo operazioni che vanno dal controllo automatico della qualità al rilevamento di oggetti in tempo reale nei sistemi di produzione. Sulla Ultralytics , l'implementazione è integrata direttamente nel flusso di lavoro di addestramento end-to-end. Una volta addestrato il modello, è possibile testarlo nel browser, implementarlo su un endpoint dedicato in una qualsiasi delle 43 regioni globali e monitorarne le prestazioni, il tutto dallo stesso spazio di lavoro.
Porta i tuoi modelli addestrati in produzione in 43 regioni in tutto il mondo grazie al ridimensionamento automatico e al monitoraggio in tempo reale.