Glossario

Modello di servizio

Imparate gli elementi essenziali del model serving: distribuite i modelli AI per ottenere previsioni in tempo reale, scalabilità e integrazione perfetta nelle applicazioni.

Il model serving è il processo che rende disponibile un modello di machine learning (ML) addestrato per ricevere dati di input e fornire previsioni in un ambiente di produzione. Una volta che un modello è stato addestrato e convalidato, il servizio è la fase critica che lo trasforma da un file statico in uno strumento attivo e operativo in grado di alimentare le applicazioni del mondo reale. Si tratta di distribuire il modello su un server e di creare un'interfaccia, in genere un'API, che consenta ad altri sistemi software di comunicare con esso per fare inferenza in tempo reale.

Sebbene strettamente correlato, il servizio dei modelli è una componente specifica del più ampio processo di distribuzione dei modelli. Il deployment comprende l'intero flusso di lavoro per l'integrazione di un modello in un ambiente di produzione, compresi la configurazione e il monitoraggio dell'infrastruttura. Il model serving si riferisce specificamente alla parte dell'infrastruttura responsabile dell'esecuzione del modello e della gestione efficiente delle richieste di inferenza.

Componenti chiave del Model Serving

Un robusto sistema di model serving è costituito da diversi componenti integrati che lavorano insieme per fornire previsioni rapide e affidabili.

  • Formato del modello: Prima di essere servito, un modello deve essere confezionato in un formato standardizzato. Formati come ONNX garantiscono l'interoperabilità tra diversi framework. Per ottenere le massime prestazioni, i modelli possono essere ottimizzati con strumenti come TensorRT per le GPU NVIDIA.
  • Struttura di servizio: Software specializzato che carica il modello, gestisce le risorse hardware come le GPU ed elabora le richieste di inferenza. Tra i framework più diffusi vi sono TensorFlow Serving, PyTorch Serve e il server di inferenza NVIDIA Triton ad alte prestazioni, che può essere utilizzato con i modelli Ultralytics tramite la nostra guida all'integrazione di Triton.
  • Endpoint API: È il gateway di comunicazione che consente alle applicazioni client di inviare dati (come immagini o testo) e di ricevere le previsioni del modello. REST e gRPC sono protocolli API comuni utilizzati a questo scopo.
  • Infrastruttura: L'hardware fisico o virtuale su cui gira il modello. Può variare da server on-premises a piattaforme di cloud computing come Amazon SageMaker e Google Cloud AI Platform. Per le applicazioni che richiedono una bassa latenza, i modelli sono spesso serviti su dispositivi AI edge. La containerizzazione con strumenti come Docker è essenziale per creare ambienti di servizio portatili e scalabili.
  • Monitoraggio e registrazione: Monitoraggio continuo delle prestazioni del modello e della salute del sistema. Questo include il monitoraggio di metriche come la latenza dell'inferenza e il throughput, nonché l'osservazione di problemi come la deriva dei dati, che può degradare l'accuratezza del modello nel tempo. Per saperne di più, consultate la nostra guida al monitoraggio dei modelli.

Applicazioni del mondo reale

Il model serving è il motore di innumerevoli funzionalità basate sull'intelligenza artificiale.

  1. Gestione dell'inventario basata sull'intelligenza artificiale: Un'azienda di vendita al dettaglio utilizza un modello YOLO11 di Ultralytics per la gestione dell'inventario in tempo reale. Il modello è confezionato in un formato ONNX e servito su un piccolo computer edge all'interno del negozio. Una telecamera invia un feed video all'endpoint di servizio, che esegue il rilevamento degli oggetti per contare gli articoli sugli scaffali e invia avvisi quando le scorte sono scarse.
  2. Analisi delle immagini mediche nel cloud: Un sistema ospedaliero distribuisce un sofisticato modello di computer vision per l'analisi di immagini mediche. A causa delle grandi dimensioni del modello e delle esigenze di calcolo, viene servito su un potente server cloud con più GPU. I radiologi caricano le scansioni ad alta risoluzione attraverso un portale sicuro, che richiama l'API di servizio. Il modello restituisce previsioni che aiutano a identificare potenziali anomalie, migliorando la velocità e l'accuratezza della diagnosi.

Il ruolo degli MLOP

Il model serving è una pietra miliare delle Machine Learning Operations (MLOps). Una buona strategia MLOps garantisce che l'intero ciclo di vita, dalla preelaborazione dei dati e dalla formazione dei modelli fino alla loro distribuzione e monitoraggio, siaautomatizzato, affidabile e scalabile. Piattaforme come Ultralytics HUB sono state progettate per semplificare l'intero flusso di lavoro, fornendo una soluzione integrata per addestrare, versionare e servire efficacemente i modelli di computer vision.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti