Function Calling (Tool Use)

Esplora come la chiamata di funzioni (function calling) e l'uso di strumenti consentono all'AI di interagire con API e database. Impara a integrare Ultralytics YOLO26 nei flussi di lavoro agentici oggi stesso.

La chiamata di funzione, spesso definita uso degli strumenti, è un paradigma potente nella moderna intelligenza artificiale (AI) che permette ai modelli di estendere le proprie capacità oltre la semplice generazione statica di testo o immagini. Invece di limitarsi a rispondere a un prompt basandosi sui dati di addestramento interni, il modello può generare comandi strutturati per attivare funzioni di programmazione esterne, interrogare database o interagire con REST API. Questo approccio fornisce efficacemente all'AI la capacità di compiere azioni tangibili in ambienti digitali.

Quando un sistema AI utilizza la chiamata di funzione, gli sviluppatori forniscono al modello un elenco di strumenti disponibili descritti tramite JSON Schema. Se il prompt dell'utente richiede dati in tempo reale o un'azione specifica, il modello sospende il suo processo di generazione standard ed emette un payload in formato JSON altamente strutturato che corrisponde ai parametri richiesti dallo strumento selezionato. Framework come l'API di chiamata di funzione di OpenAI e il framework di uso degli strumenti di Anthropic hanno reso popolare questa tecnica, trasformando gli agenti conversazionali in efficaci risolutori di problemi.

Link to this sectionApplicazioni nel mondo reale#

Integrare l'uso degli strumenti nei flussi di lavoro trasforma il modo in cui il software opera. Valutate da benchmark come il Berkeley Function Calling Leaderboard, queste capacità stanno guidando un passaggio verso sistemi altamente autonomi.

Vendita al dettaglio e assistenza clienti automatizzate: Nell'IA nella vendita al dettaglio, un assistente virtuale può utilizzare la chiamata a funzione per consultare l'inventario in tempo reale. Se un cliente chiede: "Dov'è il mio ordine?", il modello genera una chiamata a funzione verso un'API di database, recupera lo stato della spedizione e restituisce una risposta in linguaggio naturale.
Estrazione dati assistita dalla visione: Un modello visione-linguaggio (VLM) può utilizzare i rilevatori di oggetti Ultralytics YOLO come strumenti. Se richiesto di verificare la conformità alla sicurezza in un'immagine di fabbrica, l'AI conversazionale principale può chiamare uno script che esegue un modello Ultralytics YOLO26 per rilevare i caschi di protezione, restituendo senza problemi i risultati del rilevamento oggetti al dialogo dell'utente.

Link to this sectionIntegrare la Computer Vision come Strumento#

Puoi esporre un modello di computer vision come strumento funzionale per un agente AI onnicomprensivo. In questa architettura, definisci un metodo Python che esegue l'inferenza, che un modello di ragionamento può attivare quando sono necessari dati visivi.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Link to this sectionDifferenziazione dei termini correlati#

Per comprendere appieno le moderne architetture AI, è utile capire come la chiamata di funzione si relaziona e differisce da concetti simili:

Model Context Protocol (MCP): Mentre la chiamata di funzione si basa su definizioni API specifiche passate nel prompt del modello, MCP è un'architettura standardizzata e globale. MCP crea un protocollo universale per connettere i modelli AI alle fonti di dati, mentre la chiamata di funzione è il meccanismo localizzato che i modelli usano per invocare effettivamente quelle connessioni.
Retrieval Augmented Generation (RAG): RAG è una metodologia progettata specificamente per recuperare testo o documenti pertinenti per arricchire il prompt di un LLM. La chiamata di funzione è un meccanismo più ampio; un'AI può usare uno strumento per eseguire RAG, ma può anche utilizzare strumenti per scrivere file su disco o inviare un'email. Puoi trovare implementazioni complete di RAG che utilizzano strumenti nella Documentazione di PyTorch e nelle guide multimodali di Google Gemini.
Agente AI: Un agente AI è il sistema autonomo completo che percepisce il proprio ambiente e compie azioni per raggiungere un obiettivo. La chiamata di funzione è l'abilità primaria che fornisce a un agente la capacità di eseguire tali azioni. Quando distribuiscono sistemi agentici su larga scala, i team utilizzano spesso la Piattaforma Ultralytics per addestrare e servire senza soluzione di continuità i modelli visivi sottostanti a cui questi agenti fanno ricorso per vedere il mondo. Le organizzazioni che passano da modelli statici a flussi di lavoro agentici spesso si affidano a librerie di deep learning come TensorFlow per ottimizzare gli endpoint con cui queste funzioni comunicano.

Function Calling (Tool Use)

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionIntegrare la Computer Vision come Strumento#

Link to this sectionDifferenziazione dei termini correlati#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!