Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Appel de fonction (utilisation d'outils)

Découvrez comment les appels de fonction et l'utilisation d'outils permettent à l'IA d'interagir avec les API et les bases de données. Apprenez dès aujourd'hui à intégrer Ultralytics dans vos workflows agentics.

L'appel de fonctions, souvent appelé utilisation d'outils, est un puissant paradigme de l'intelligence artificielle (IA) moderne qui permet aux modèles d'étendre leurs capacités au-delà de la génération statique de texte ou d'images. Au lieu de se contenter de répondre à une invite basée sur des données d'entraînement internes, le modèle peut produire des commandes structurées pour déclencher des fonctions de programmation externes, interroger des bases de données ou interagir avec des API REST. Cette approche donne effectivement à l'IA la capacité de prendre des mesures concrètes dans des environnements numériques.

Lorsqu'un système d'IA utilise l'appel de fonction, les développeurs fournissent au modèle une liste des outils disponibles décrits à l'aide du schéma JSON. Si la demande de l'utilisateur nécessite des données en temps réel ou une action spécifique , le modèle interrompt son processus de génération standard et génère une charge utile au format JSON hautement structuré correspondant aux paramètres requis de l' outil sélectionné. Des frameworks tels que l'API d'appel de fonction d'OpenAI et le framework d'utilisation d'outilsAnthropic ont popularisé cette technique, transformant les agents conversationnels en capables de résoudre des problèmes.

Applications concrètes

L'intégration de l'utilisation d'outils dans les flux de travail transforme le fonctionnement des logiciels. Évaluées à l'aide de benchmarks tels que le Berkeley Function Calling Leaderboard, ces capacités favorisent l'évolution vers des systèmes hautement autonomes.

  • Commerce de détail et service client automatisés : dans le domaine du commerce de détail, un assistant virtuel peut utiliser l'appel de fonction pour consulter l'inventaire en temps réel. Si un client demande « Où en est ma commande ? », le modèle génère un appel de fonction vers une API de base de données, récupère le statut de suivi et renvoie une réponse en langage naturel.
  • Extraction de données assistée par la vision : un modèle de langage visuel (VLM) peut utiliser Ultralytics YOLO comme outils. Si on lui demande de vérifier la conformité en matière de sécurité dans une image d'usine, l'IA conversationnelle principale peut appeler un script exécutant un modèle Ultralytics pour detect , et renvoyer de manière transparente les résultats de la détection d'objets vers le dialogue de l'utilisateur.

Intégrer la vision par ordinateur comme outil

Vous pouvez exposer un modèle de vision par ordinateur comme un outil fonctionnel pour un agent IA global. Dans cette architecture, vous définissez une Python qui effectue une inférence, qu'un modèle de raisonnement peut déclencher lorsque des données visuelles sont nécessaires.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Différencier les termes apparentés

Pour bien comprendre les architectures modernes de l'IA, il est utile de comprendre comment l'appel de fonction est lié et diffère de concepts similaires :

  • Protocole de contexte de modèle (MCP): Alors que l'appel de fonction repose sur des définitions API spécifiques transmises dans l'invite du modèle, le MCP est une architecture globale et standardisée. Le MCP crée un protocole universel pour connecter les modèles d'IA aux sources de données, tandis que l'appel de fonction est le mécanisme localisé utilisé par les modèles pour invoquer ces connexions.
  • Génération augmentée par la récupération (RAG): La RAG est une méthodologie spécialement conçue pour récupérer des textes ou des documents pertinents afin d'augmenter la promptitude d'un LLM. La fonction d'appel est un mécanisme plus large ; une IA peut utiliser un outil pour effectuer une RAG, mais elle peut également utiliser des outils pour écrire des fichiers sur disque ou envoyer un e-mail. Vous trouverez des implémentations complètes de la RAG utilisant des outils dans PyTorch et les guides multimodauxGoogle .
  • Agent IA: un agent IA est un système entièrement autonome qui perçoit son environnement et prend des mesures pour atteindre un objectif. L'appel de fonction est la principale compétence qui donne à un agent la capacité d'exécuter ces actions. Lors du déploiement de systèmes agentifs à grande échelle , les équipes utilisent souvent la Ultralytics pour former et servir de manière transparente les modèles visuels sous-jacents que ces agents utilisent pour voir le monde. Les organisations qui passent de modèles statiques à des flux de travail agentifs s'appuient souvent sur des bibliothèques d'apprentissage profond telles que TensorFlow pour optimiser les points de terminaison avec lesquels ces fonctions communiquent.

Boostez votre énergie avec Ultralytics YOLO

Bénéficiez d'une vision IA avancée pour vos projets. Trouvez la licence adaptée à vos objectifs dès aujourd'hui.

Explorer les options de licence