Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Compressione immediata

Scopri come la compressione dei prompt ottimizza l'efficienza dell'IA. Impara oggi stesso a ridurre l'utilizzo dei token dei modelli di linguaggio di grandi dimensioni (LLM), a contenere i costi e ad aumentare la velocità di inferenza con Ultralytics .

La compressione dei prompt è una tecnica di ottimizzazione avanzata progettata per ridurre la lunghezza e la complessità del testo di input fornito ai modelli linguistici di grandi dimensioni (LLM) e ai modelli multimodali. Eliminando algoritmicamente le parole ridondanti, il contesto irrilevante e le parole vuote, pur preservando il significato semantico fondamentale, la compressione dei prompt consente ai sistemi di IA di elaborare le informazioni in modo più efficiente. Questo metodo è sempre più fondamentale per ridurre al minimo i costi computazionali, diminuire la latenza di inferenza e impedire ai modelli di superare la loro finestra di contesto massima.

Come funziona la compressione istantanea

A livello architettonico, la compressione dei prompt ricorre spesso a modelli più piccoli e specializzati o ad algoritmi basati sulla teoria dell'informazione per valutare l'importanza di ciascun token in un determinato prompt. Tecniche come la fusione dei token e il pruning basato sull'entropia identificano ed eliminano i token che contribuiscono in misura minima al significato complessivo. Ciò garantisce che l'input finale contenga solo le informazioni più dense .

Ricerche recenti condotte da organizzazioni autorevoli evidenziano che i prompt altamente compressi sono in grado di mantenere le prestazioni in compiti di ragionamento complessi, riducendo al contempo in modo significativo il consumo di token. Per gli sviluppatori che integrano l'IA in applicazioni scalabili, attenersi alle linee guida per l'ottimizzazione dei prompt fornite da OpenAI e sfruttare i framework di compressione rappresenta una best practice standard per un'implementazione efficiente.

Applicazioni nel mondo reale

La compressione immediata offre un vantaggio immediato in contesti che richiedono l'elaborazione rapida di grandi quantità di dati testuali o visivi :

  • Generazione potenziata dal recupero (RAG): Nelle applicazioni di ricerca aziendale, le pipeline RAG recuperano spesso decine di documenti voluminosi per rispondere a una singola richiesta dell'utente. Gli algoritmi di compressione dei prompt riducono questi documenti recuperati, sintetizzandoli in concisi riassunti fattuali prima di inviarli al modello di generazione. Ciò impedisce il sovraccarico di token e accelera l'inferenza in tempo reale.
  • Agenti IA autonomi: gli agenti e i chatbot devono conservare una memoria a lungo termine delle interazioni con gli utenti. Anziché trasmettere l'intera cronologia della conversazione ad ogni nuova richiesta, le tecniche di compressione riassumono i turni di dialogo precedenti, garantendo che l'agente mantenga la consapevolezza del contesto senza incorrere in costi computazionali esponenziali.

Compressione istantanea vs. tecniche correlate

Per creare solide pipeline di Machine Learning Operations (MLOps), è importante distinguere la compressione dei prompt dai concetti correlati:

  • Rispetto alla memorizzazione nella cache del prompt: la memorizzazione nella cache conserva gli stati computazionali interni del testo elaborato in precedenza per evitare di ricalcolarli. La compressione, invece, modifica e accorcia attivamente il testo di input stesso prima che abbia luogo qualsiasi elaborazione.
  • Rispetto al prompt engineering: Il prompt engineering è l'arte, guidata dall'uomo, di progettare istruzioni efficaci. La compressione è una riduzione automatizzata e algoritmica di tali istruzioni.
  • Rispetto all'arricchimento del prompt: L'arricchimento amplia un prompt aggiungendo contesto esterno, mentre la compressione lo riduce. Spesso vengono utilizzati insieme: un sistema può arricchire un prompt con i risultati di un database e poi comprimere il payload finale prima dell'inferenza.

Applicazione alla visione artificiale

Nella visione artificiale (CV), i principi di compressione dei prompt trovano applicazione quando si utilizzano modelli a vocabolario aperto che accettano query testuali per identificare gli oggetti. Mantenere concise le descrizioni delle classi garantisce una codifica testuale più rapida e riduce il carico sulla memoria.

Negli ambienti di produzione a classi fisse, dove la velocità è fondamentale, gli sviluppatori passano solitamente dai modelli basati su prompt testuali a modelli altamente ottimizzati e dall'architettura fissa, come Ultralytics . È possibile gestire in modo efficiente i set di dati e addestrare questi modelli all'avanguardia utilizzando la Ultralytics .

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning