Glossario

Decodifica speculativa

Scopri come la decodifica speculativa accelera l'inferenza dell'IA di 2-3 volte. Scopri come questa tecnica ottimizza gli LLM e Ultralytics per un output più veloce ed efficiente.

La decodifica speculativa è una tecnica di ottimizzazione avanzata utilizzata principalmente nei modelli linguistici di grandi dimensioni (LLM) e in altre attività di generazione sequenziale per accelerare significativamente l'inferenza senza compromettere la qualità dell'output. Nella generazione autoregressiva tradizionale , un modello produce un token alla volta, con ogni fase che attende il completamento di quella precedente . Questo processo può essere lento, specialmente su hardware potente dove la larghezza di banda della memoria, piuttosto che la velocità di calcolo, diventa spesso il collo di bottiglia. La decodifica speculativa risolve questo problema utilizzando un modello "bozza" più piccolo e veloce per prevedere in parallelo una sequenza di token futuri, che vengono poi verificati in un unico passaggio dal modello "target" più grande e accurato. Se la bozza è corretta, il sistema accetta più token contemporaneamente , avanzando efficacemente nel processo di generazione.

Come funziona la decodifica speculativa

Il meccanismo principale si basa sull'osservazione che molti token in una sequenza, come le parole funzionali quali "il", "e" o completamenti ovvi, sono facili da prevedere e non richiedono l'intera potenza computazionale di un modello massiccio. Scaricando queste facili previsioni su un modello proxy leggero, il sistema riduce il numero di volte in cui è necessario richiamare il modello pesante.

Quando il modello di destinazione esamina la sequenza abbozzata, utilizza una fase di verifica parallela. Poiché le GPU sono altamente ottimizzate per l'elaborazione in batch, il controllo simultaneo di cinque token abbozzati richiede all'incirca lo stesso tempo necessario per generare un singolo token. Se il modello di destinazione concorda con la bozza, tali token vengono finalizzati. Se non è d'accordo in qualsiasi momento, la sequenza viene troncata, viene inserito il token corretto e il processo si ripete. Questo metodo garantisce che l'output finale sia matematicamente identico a quello che il modello di destinazione avrebbe prodotto da solo, preservando l' accuratezza e aumentando la velocità da 2 a 3 volte in molti scenari.

Applicazioni nel mondo reale

Questa tecnica sta trasformando il modo in cui le industrie implementano l'IA generativa, in particolare nei casi in cui la latenza è fondamentale.

Completamento del codice in tempo reale: negli ambienti di sviluppo integrati (IDE), gli assistenti di codifica AI devono fornire suggerimenti istantanei mentre lo sviluppatore digita. La decodifica speculativa consente a questi assistenti di redigere intere righe di codice utilizzando un modello di piccole dimensioni, mentre un modello di base di grandi dimensioni verifica la sintassi e la logica in background. Ciò si traduce in un'esperienza utente rapida e senza interruzioni, che dà la sensazione di digitare in tempo reale piuttosto che di attendere la risposta del server.
Chatbot interattivi su dispositivi edge: l'esecuzione di potenti LLM su smartphone o laptop è difficile a causa delle risorse hardware limitate. Utilizzando la decodifica speculativa, un dispositivo può eseguire un modello quantizzato e di piccole dimensioni a livello locale per redigere le risposte, interrogando occasionalmente un modello più grande (basato su cloud o un modello locale più pesante ) per la verifica. Questo approccio ibrido consente interazioni di alta qualità con l'assistente virtuale con un ritardo minimo , rendendo l'AI edge più praticabile per compiti complessi.

Relazione con altri concetti

È importante distinguere la decodifica speculativa da strategie di ottimizzazione simili.

Quantizzazione del modello: mentre la quantizzazione riduce la precisione dei pesi del modello (ad esempio, da FP16 a INT8) per risparmiare memoria e velocizzare il calcolo, altera in modo permanente il modello e può degradarne leggermente le prestazioni. La decodifica speculativa, al contrario, non modifica i pesi del modello di destinazione e garantisce la stessa distribuzione dell'output.
Distillazione della conoscenza: Ciò comporta l'addestramento di un modello studente più piccolo per imitare un modello insegnante più grande. Il modello studente sostituisce completamente l'insegnante. Nella decodifica speculativa, il modello piccolo (redattore) e il modello grande (verificatore) lavorano in tandem durante l'inferenza, piuttosto che sostituirsi l'uno all'altro .

Esempio di implementazione

Sebbene la decodifica speculativa sia spesso integrata nei framework di servizio, il concetto di verifica delle previsioni è fondamentale per un'IA efficiente. Di seguito è riportato un esempio concettuale che utilizza PyTorch illustrare come un modello più grande potrebbe valutare o verificare una sequenza di input candidati, in modo simile alla fase di verifica nella decodifica speculativa.

import torch


def verify_candidate_sequence(model, input_ids, candidate_ids):
    """Simulates the verification step where a target model checks candidate tokens."""
    # Concatenate input with candidates for parallel processing
    full_sequence = torch.cat([input_ids, candidate_ids], dim=1)

    with torch.no_grad():
        logits = model(full_sequence)  # Single forward pass for all tokens

    # Get the model's actual predictions (greedy decoding for simplicity)
    predictions = torch.argmax(logits, dim=-1)

    # In a real scenario, we check if predictions match candidate_ids
    return predictions


# Example tensor setup (conceptual)
# input_ids = torch.tensor([[101, 2054, 2003]])
# candidate_ids = torch.tensor([[1037, 3024]])
# verify_candidate_sequence(my_model, input_ids, candidate_ids)

Impatto sullo sviluppo futuro dell'IA

Con l'aumentare delle dimensioni dei modelli, il divario tra capacità di calcolo e larghezza di banda della memoria, spesso denominato "barriera della memoria", si amplia. La decodifica speculativa contribuisce a colmare tale divario massimizzando l'intensità aritmetica di ogni accesso alla memoria. Tale efficienza è fondamentale per l'implementazione sostenibile dell' IA generativa su larga scala, riducendo sia il consumo energetico che i costi operativi.

I ricercatori stanno attualmente esplorando modi per applicare principi speculativi simili alle attività di visione artificiale. Ad esempio, nella generazione di video, un modello leggero potrebbe abbozzare fotogrammi futuri che vengono successivamente perfezionati da un modello di diffusione ad alta fedeltà. Poiché framework come PyTorch e TensorFlow integrano queste ottimizzazioni in modo nativo, gli sviluppatori possono aspettarsi una latenza di inferenza più veloce su una gamma più ampia di modalità, dal testo ai dati visivi complessi elaborati da architetture avanzate come Ultralytics .

Per chi gestisce il ciclo di vita di tali modelli, l'utilizzo di strumenti come la Ultralytics garantisce che i set di dati sottostanti e le pipeline di addestramento siano robusti, fornendo una solida base per tecniche di inferenza avanzate. Sia che si lavori con modelli linguistici di grandi dimensioni o con sistemi di rilevamento degli oggetti all'avanguardia, l'ottimizzazione della pipeline di inferenza rimane un passo fondamentale nel passaggio dal prototipo alla produzione.

Decodifica speculativa

Addestrare i modelliYOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori industriali

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Come funziona la decodifica speculativa

Applicazioni nel mondo reale

Relazione con altri concetti

Esempio di implementazione

Impatto sullo sviluppo futuro dell'IA

Leggi di più in questa categoria

Come migliorare mAP del modello mAP oggetti di piccole dimensioni: una guida rapida

Ridefinire la sorveglianza della biodiversità con la visione artificiale

I 5 consigli principali per implementare YOLO26 in modo efficiente su edge e cloud

Unitevi alla comunità di Ultralytics