Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Chiamata di funzioni (uso degli strumenti)

Scopri come le chiamate di funzione e l'uso di strumenti consentono all'IA di interagire con API e database. Impara oggi stesso a integrare Ultralytics nei flussi di lavoro agentici.

La chiamata di funzioni, spesso denominata utilizzo di strumenti, è un potente paradigma nell'intelligenza artificiale moderna (AI) che consente ai modelli di estendere le loro capacità oltre la generazione statica di testo o immagini. Invece di limitarsi a rispondere a un prompt basato su dati di addestramento interni, il modello può generare comandi strutturati per attivare funzioni di programmazione esterne, interrogare database o interagire con API REST. Questo approccio conferisce effettivamente all'AI la capacità di intraprendere azioni tangibili in ambienti digitali.

Quando un sistema di IA utilizza la chiamata di funzioni, gli sviluppatori forniscono al modello un elenco di strumenti disponibili descritti utilizzando lo schema JSON. Se il prompt dell'utente richiede dati in tempo reale o un'azione specifica , il modello interrompe il suo processo di generazione standard e produce un payload in formato JSON altamente strutturato che corrisponde ai parametri richiesti dallo strumento selezionato. Framework come l' API di chiamata di funzioni di OpenAI e il framework di utilizzo degli strumentiAnthropic hanno reso popolare questa tecnica, trasformando gli agenti conversazionali in capaci risolvitori di problemi.

Applicazioni nel mondo reale

L'integrazione dell'uso degli strumenti nei flussi di lavoro trasforma il modo in cui opera il software. Valutate da benchmark come il Berkeley Function Calling Leaderboard, queste capacità stanno guidando un cambiamento verso sistemi altamente autonomi.

  • Vendita al dettaglio automatizzata e assistenza clienti: nell' IA nel settore della vendita al dettaglio, un assistente virtuale può utilizzare la funzione di chiamata per cercare l'inventario in tempo reale. Se un cliente chiede "Dov'è il mio ordine?", il modello genera una chiamata di funzione a un'API del database, recupera lo stato di tracciamento e restituisce una risposta in linguaggio naturale.
  • Estrazione di dati assistita dalla visione: un modello di visione-linguaggio (VLM) può utilizzare Ultralytics YOLO come strumenti. Se viene richiesto di verificare la conformità alle norme di sicurezza in un'immagine di una fabbrica, l'IA conversazionale principale può richiamare uno script che esegue un modello Ultralytics per detect , restituendo senza soluzione di continuità i risultati del rilevamento degli oggetti alla finestra di dialogo dell'utente.

Integrazione della visione artificiale come strumento

È possibile esporre un modello di visione artificiale come strumento funzionale per un agente AI di livello superiore . In questa architettura, si definisce un Python che esegue l'inferenza, che un modello di ragionamento può attivare quando sono necessari dati visivi.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Differenziare i termini correlati

Per comprendere appieno le moderne architetture di IA, è utile capire in che modo la chiamata di funzione è correlata e differisce da concetti simili:

  • Protocollo di contesto del modello (MCP): Mentre la chiamata di funzioni si basa su definizioni API specifiche passate nel prompt del modello, MCP è un'architettura standardizzata e globale. MCP crea un protocollo universale per connettere i modelli di IA alle fonti di dati, mentre la chiamata di funzioni è il meccanismo localizzato che i modelli utilizzano per invocare effettivamente tali connessioni.
  • Retrieval Augmented Generation (RAG): RAG è una metodologia progettata specificamente per recuperare testi o documenti pertinenti al fine di potenziare il prompt di un LLM. La funzione calling è un meccanismo più ampio; un'IA può utilizzare uno strumento per eseguire il RAG, ma può anche utilizzare strumenti per scrivere file su disco o inviare un'e-mail. È possibile trovare implementazioni complete del RAG che utilizzano strumenti nella PyTorch e nelle guide multimodaliGoogle .
  • Agente AI: un agente AI è un sistema completamente autonomo che percepisce l'ambiente circostante e intraprende azioni per raggiungere un obiettivo. La chiamata di funzioni è la capacità primaria che consente a un agente di eseguire tali azioni. Quando implementano sistemi agentici su larga scala , i team utilizzano spesso la Ultralytics per addestrare e servire senza soluzione di continuità i modelli visivi sottostanti che questi agenti utilizzano per vedere il mondo. Le organizzazioni che stanno passando da modelli statici a flussi di lavoro agentici spesso si affidano a librerie di deep learning come TensorFlow per ottimizzare gli endpoint con cui queste funzioni comunicano.

Potenziamento con Ultralytics YOLO

Ottieni una visione AI avanzata per i tuoi progetti. Trova oggi stesso la licenza giusta per i tuoi obiettivi.

Esplora le opzioni di licenza