Glossario

Deployment del Modello

Scopri gli elementi essenziali del model deployment, trasformando i modelli ML in strumenti reali per previsioni, automazione e approfondimenti basati sull'IA.

L'implementazione del modello rappresenta la fase cruciale del ciclo di vita dell'apprendimento automatico in cui un modello addestrato di di apprendimento automatico (ML) addestrato viene integrato in in un ambiente di produzione per agire su dati reali. Si tratta di un ponte tra lo sviluppo, in cui i modelli vengono addestrati e convalidati in ambienti controllati - e l'applicazione nel mondo reale, dove i modelli generano valore fornendo informazioni utili intuizioni. Senza una distribuzione efficace, anche la più sofisticata rete neurale (NN) più sofisticata rimane un file statico, incapace di di interagire con gli utenti finali o con sistemi software esterni. L'obiettivo primario è quello di rendere le capacità predittive del modello capacità predittive del modello accessibili, affidabili e scalabili per applicazioni che vanno dalle applicazioni mobili ai servizi cloud aziendali. servizi cloud aziendali.

La pipeline di distribuzione

La transizione di un modello dall'ambiente di ricerca alla produzione comporta in genere una pipeline strutturata per garantire prestazioni e stabilità. garantire prestazioni e stabilità.

Ottimizzazione del modello: Prima che un modello lasci l'ambiente di addestramento, viene spesso sottoposto a ottimizzazione del modello per migliorare la velocità di esecuzione e ridurre l'uso della memoria. Tecniche come la quantizzazione riducono la precisione dei pesi del modello (ad esempio, da 32 bit in virgola mobile a 8 bit interi), riducendo drasticamente i requisiti computazionali con un impatto minimo sulla precisione. con un impatto minimo sulla precisione.
Esportazione del modello: Il modello ottimizzato viene convertito in un formato standard indipendente dalla struttura di formazione. formazione. Formati come l' ONNX (Open Neural Network Exchange) permettono ai modelli addestrati in PyTorch di essere eseguiti su vari motori di inferenza. Per un'accelerazione specifica dell'hardware, gli sviluppatori possono possono esportare in TensorRT per le GPU NVIDIA o OpenVINO per le CPU Intel .
Containerizzazione: Per garantire che il modello venga eseguito in modo coerente in ambienti informatici diversi, è è pratica comune utilizzare la containerizzazione. Strumenti come Docker impacchettano il modello, le sue dipendenze e l'ambiente di runtime in un'unica unità leggera. dipendenze e l'ambiente di runtime in un'unica unità leggera, eliminando il problema "funziona sulla mia macchina". macchina".
Orchestrazione e scalabilità: Negli scenari ad alta domanda, i container distribuiti vengono gestiti da sistemi di sistemi di orchestrazione come Kubernetes. Queste piattaforme gestiscono scalabilità, facendo girare automaticamente nuove istanze del modello nuove istanze del modello per gestire i picchi di traffico e garantire un'elevata disponibilità.

Ambienti di implementazione

La scelta dell'ambiente dipende in larga misura dai requisiti dell'applicazione in materia di latenza dell'inferenza, privacy dei dati e connettività.

Distribuzione nel cloud: Modelli di hosting su piattaforme cloud come AWS SageMaker o Google Vertex AI offre una potenza di calcolo praticamente illimitata e una scalabilità. È l'ideale per modelli linguistici complessi modelli linguistici complessi e di grandi dimensioni (LLM) o per le attività di di elaborazione batch in cui la risposta in tempo reale è meno critica.
Edge AI: per applicazioni che richiedono in tempo reale senza dipendere da internet, i modelli dipendenza da Internet, i modelli vengono distribuiti direttamente sui dispositivi locali. Edge AI utilizza hardware compatto, come ad esempio i dispositivi NVIDIA Jetson o Raspberry Pi, per elaborare i dati alla fonte. Questo approccio riduce al minimo la latenza e migliora la privacy dei dati informazioni sensibili sul dispositivo.
Basato sul browser: Quadri come TensorFlow.js permettono di di eseguire i modelli interamente all'interno di un browser web utilizzando l'hardware del cliente. Questo approccio senza installazione è eccellente per applicazioni web interattive e compiti di computer vision (CV) leggere.

Applicazioni nel mondo reale

Controllo qualità della produzione automatizzato: In un ambiente di fabbrica, un YOLO11 di rilevamento degli oggetti viene distribuito a un dispositivo collegato a una telecamera su un nastro trasportatore. Durante il passaggio dei prodotti, il modello esegue in tempo reale il rilevamento delle in tempo reale per identificare difetti come crepe o etichette disallineate. Il sistema attiva immediatamente un braccio meccanico per rimuovere gli articoli difettosi, aumentando significativamente l'efficienza rispetto all'ispezione manuale. aumentando notevolmente l'efficienza rispetto all'ispezione manuale. Per saperne di più L 'intelligenza artificiale nella produzione.
Analitica intelligente per il retail: I rivenditori impiegano modelli di modelli di tracciamento degli oggetti per analizzare il comportamento dei clienti all'interno dei negozi. Elaborando i feed video su un server locale, il sistema genera mappe di calore delle aree ad alto traffico e monitora le code. aree ad alto traffico e monitora la lunghezza delle code. Questi dati aiutano i manager a ottimizzare il layout dei negozi e i livelli di personale. Vedere come AI nel retail sta trasformando l'esperienza l'esperienza di acquisto.

Concetti correlati: Distribuzione vs. Servizio vs. MLOps

È importante distinguere il "Model Deployment" dai termini correlati nell'ecosistema:

Distribuzione del modello e servizio del modello: Il deployment si riferisce al processo generale di messa in produzione di un modello. Il model serving è il meccanismo o il software meccanismo o software specifico (come NVIDIA Triton Inference Server o TorchServe) che ascolta le richieste API ed esegue il modello per generare previsioni. generare previsioni. Il servizio è un componente della distribuzione.
Distribuzione del modello vs. MLOps MLOps: la distribuzione è una singola fase all'interno del più ampio quadro MLOps. MLOps (Machine Learning Operations) comprende l'intero ciclo di vita. l'intero ciclo di vita, che comprende la raccolta dei dati, l'addestramento, la valutazione, l'implementazione e il monitoraggio continuo del modello per rilevare problemi come il monitoraggio continuo del modello per detect problemi come deriva dei dati.

Esportazione di un modello per la distribuzione

Un primo passo comune nella distribuzione è l'esportazione di un modello addestrato in un formato altamente compatibile. Il seguente esempio mostra come esportare un modello YOLO11 in formato ONNX usando il metodo ultralytics pacchetto, rendendolo pronto per per la distribuzione su varie piattaforme.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")

Deployment del Modello

Addestrare i modelliYOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori industriali

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

La pipeline di distribuzione

Ambienti di implementazione

Applicazioni nel mondo reale

Concetti correlati: Distribuzione vs. Servizio vs. MLOps

Esportazione di un modello per la distribuzione

Leggi di più in questa categoria

Tendenze future del rilevamento degli oggetti: 7 aspetti chiave da tenere d'occhio

Miglioramento della reidentificazione dei veicoli con i modelliYOLO di Ultralytics

Migliorare la previsione delle collisioni con i modelliYOLO di Ultralytics

Unitevi alla comunità di Ultralytics