Prompt Engineering
Padroneggia il prompt engineering per AI e Computer Vision. Impara a ottimizzare gli input per LLM e modelli multimodali come Ultralytics YOLO26 per ottenere risultati superiori.
Il prompt engineering è il processo strategico di progettazione, rifinitura e ottimizzazione del testo di input per guidare i modelli di Intelligenza Artificiale (AI) verso la produzione di output accurati, pertinenti e di alta qualità. Guadagnando inizialmente importanza con l'ascesa dei Large Language Models (LLM) come GPT-4, questa disciplina si è evoluta in una competenza critica per interagire con i sistemi di generative AI attraverso varie modalità, inclusi testo, immagini e video. Piuttosto che alterare i pesi del modello sottostanti tramite riaddestramento, il prompt engineering sfrutta la conoscenza esistente del modello inquadrando l'attività in un modo che il sistema possa comprendere al meglio, colmando il divario tra l'intento umano e l'esecuzione della macchina.
Link to this sectionLa meccanica di un prompting efficace#
Fondamentalmente, il prompt engineering si basa sulla comprensione di come i foundation models elaborano contesto e istruzioni. Un prompt ben costruito riduce l'ambiguità fornendo vincoli espliciti, formati di output desiderati (come JSON o Markdown) e informazioni di base pertinenti. Gli operatori esperti utilizzano tecniche come il few-shot learning, in cui fornisci alcuni esempi di coppie input-output all'interno del prompt per dimostrare il modello desiderato.
Un'altra strategia potente è il chain-of-thought prompting, che incoraggia il modello a scomporre compiti di ragionamento complessi in passaggi intermedi. Ciò migliora significativamente le prestazioni su query basate sulla logica. Inoltre, ottimizzare l'uso della context window—il limite alla quantità di testo che un modello può elaborare contemporaneamente—è cruciale per mantenere la coerenza in lunghe interazioni. Risorse esterne, come la guida di OpenAI sulla progettazione dei prompt, sottolineano l'importanza della rifinitura iterativa per gestire efficacemente i casi limite.
Link to this sectionRilevanza nella Computer Vision#
Sebbene spesso associato al testo, il prompt engineering è sempre più vitale nella Computer Vision (CV). I moderni multi-modal models e i rilevatori open-vocabulary, come YOLO-World, ti consentono di definire gli obiettivi di rilevamento utilizzando il natural language processing (NLP) invece di ID di classe numerici predefiniti.
In questo contesto, il "prompt" è una descrizione testuale dell'oggetto (ad es. "persona che indossa un casco rosso"). Questa capacità, nota come zero-shot learning, consente ai sistemi di rilevare oggetti su cui non sono stati addestrati esplicitamente, sfruttando le associazioni apprese tra caratteristiche visive ed embedding semantici. Per ambienti di produzione ad alta velocità in cui le classi sono fisse, potresti eventualmente passare da modelli basati su prompt a modelli efficienti e riaddestrati come YOLO26, ma il prompt engineering rimane la chiave per la prototipazione rapida e la flessibilità.
Link to this sectionApplicazioni nel mondo reale#
Il prompt engineering crea valore in diversi settori abilitando un'automazione flessibile e intelligente:
- Dynamic Visual Analytics: Nell'AI in Retail, i responsabili di negozio utilizzano modelli di visione basati su prompt per cercare articoli specifici senza interventi tecnici. Un sistema può ricevere istruzioni per tracciare "scaffali vuoti" un giorno e "prodotti fuori posto" quello successivo. Questa flessibilità permette alle aziende di adattare immediatamente i propri sistemi di object detection ai trend stagionali.
- Automated Content Creation: I team di marketing si affidano a prompt dettagliati per guidare i generatori text-to-image come Stable Diffusion o Midjourney. Progettando prompt che specificano illuminazione, stile artistico e composizione, i designer possono generare rapidamente risorse visive.
- Intelligent Knowledge Retrieval: Nel supporto clienti, gli ingegneri progettano "system prompt" che istruiscono i chatbot a rispondere alle query utilizzando solo dati aziendali verificati. Questo è un componente chiave della Retrieval-Augmented Generation (RAG), che garantisce che l'AI mantenga una personalità utile evitando allucinazioni negli LLM.
Link to this sectionImplementazione con Ultralytics#
Il seguente esempio dimostra come il prompt engineering viene applicato programmaticamente utilizzando il pacchetto ultralytics. Qui, utilizziamo un modello YOLO-World che accetta prompt testuali per definire dinamicamente quali oggetti cercare, in contrasto con i modelli standard come YOLO26 che utilizzano elenchi di classi fissi.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()Link to this sectionDistinguere concetti correlati#
Per distribuire efficacemente soluzioni AI tramite la Ultralytics Platform, è importante distinguere il prompt engineering da tecniche di ottimizzazione simili:
- Prompt Engineering vs. Prompt Tuning: Il prompt engineering implica la creazione manuale di input in linguaggio naturale. Al contrario, il prompt tuning è un metodo di parameter-efficient fine-tuning (PEFT) che apprende "soft prompt" (embedding vettoriali continui) durante una fase di addestramento. Questi soft prompt sono ottimizzazioni matematiche invisibili all'utente umano.
- Prompt Engineering vs. Fine-Tuning: Il fine-tuning aggiorna permanentemente i pesi di un modello utilizzando uno specifico training dataset per specializzarlo in un compito. Il prompt engineering non cambia il modello stesso; ottimizza solo l'input durante la real-time inference.
- Prompt Engineering vs. Prompt Injection: Mentre l'engineering è costruttivo, il prompt injection è una vulnerabilità di sicurezza in cui input dannosi manipolano il modello inducendolo a ignorare i propri vincoli di sicurezza. Garantire l'AI Safety richiede una solida difesa contro tali prompt avversari.






