Function Calling (Tool Use)

Erforsche, wie Funktionsaufrufe und Werkzeugnutzung KI befähigen, mit APIs und Datenbanken zu interagieren. Lerne, Ultralytics YOLO26 noch heute in agentenbasierte Workflows zu integrieren.

Funktionsaufrufe, oft als Tool-Nutzung bezeichnet, sind ein leistungsstarkes Paradigma in der modernen künstlichen Intelligenz (KI), das es Modellen ermöglicht, ihre Fähigkeiten über die reine Generierung von Text oder Bildern hinaus zu erweitern. Anstatt nur einen Prompt basierend auf internen Trainingsdaten zu beantworten, kann das Modell strukturierte Befehle ausgeben, um externe Programmfunktionen auszulösen, Datenbanken abzufragen oder mit REST APIs zu interagieren. Dieser Ansatz verleiht der KI effektiv die Fähigkeit, konkrete Aktionen in digitalen Umgebungen durchzuführen.

Wenn ein KI-System Funktionsaufrufe nutzt, stellt der Entwickler dem Modell eine Liste verfügbarer Tools zur Verfügung, die über JSON Schema beschrieben werden. Wenn der Prompt des Benutzers Echtzeitdaten oder eine spezifische Aktion erfordert, pausiert das Modell seinen Standard-Generierungsprozess und gibt ein hochstrukturiertes JSON-Format-Payload aus, das den erforderlichen Parametern des ausgewählten Tools entspricht. Frameworks wie OpenAIs Funktionsaufruf-API und Anthropics Tool-Nutzungs-Framework haben diese Technik populär gemacht und Konversations-Agenten in fähige Problemlöser verwandelt.

Link to this sectionPraxisanwendungen#

Die Integration der Tool-Nutzung in Arbeitsabläufe verändert die Arbeitsweise von Software grundlegend. Diese Fähigkeiten, die durch Benchmarks wie das Berkeley Function Calling Leaderboard bewertet werden, treiben den Wandel hin zu hochautonomen Systemen voran.

Automatisierter Einzelhandel und Kundenservice: Im Bereich KI im Einzelhandel kann ein virtueller Assistent Function Calling nutzen, um den aktuellen Lagerbestand abzurufen. Wenn ein Kunde fragt: "Wo ist meine Bestellung?", generiert das Modell einen Funktionsaufruf an eine Datenbank-API, ruft den Sendestatus ab und gibt eine Antwort in natürlicher Sprache zurück.
Vision-gestützte Datenextraktion: Ein Vision-Language-Modell (VLM) kann Ultralytics YOLO Objektdetektoren als Tools verwenden. Wenn die KI aufgefordert wird, die Einhaltung von Sicherheitsvorschriften in einem Fabrikbild zu überprüfen, kann die KI einen Prozess starten, der ein Ultralytics YOLO26-Modell zur Erkennung von Schutzhelmen ausführt, und die Objekterkennungs-Ergebnisse nahtlos in den Dialog des Benutzers zurückgeben.

Link to this sectionComputer Vision als Tool integrieren#

Du kannst ein Computer-Vision-Modell als funktionales Tool für einen übergeordneten KI-Agenten bereitstellen. In dieser Architektur definierst du eine Python-Methode, die eine Inferenz durchführt und von einem logikbasierten Modell ausgelöst werden kann, wenn visuelle Daten benötigt werden.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Link to this sectionUnterscheidung verwandter Begriffe#

Um moderne KI-Architekturen vollständig zu verstehen, ist es hilfreich zu wissen, wie Funktionsaufrufe mit ähnlichen Konzepten zusammenhängen und sich von ihnen unterscheiden:

Model Context Protocol (MCP): Während Funktionsaufrufe auf spezifischen API-Definitionen basieren, die im Modell-Prompt übergeben werden, ist MCP eine übergeordnete, standardisierte Architektur. MCP schafft ein universelles Protokoll zur Verbindung von KI-Modellen mit Datenquellen, wohingegen Funktionsaufrufe der lokalisierte Mechanismus sind, den Modelle tatsächlich verwenden, um diese Verbindungen aufzurufen.
Retrieval Augmented Generation (RAG): RAG ist eine Methodik, die speziell darauf ausgelegt ist, relevante Texte oder Dokumente abzurufen, um den Prompt eines LLMs zu erweitern. Funktionsaufrufe sind ein breiterer Mechanismus; eine KI kann ein Tool verwenden, um RAG durchzuführen, aber sie kann Tools auch nutzen, um Dateien auf die Festplatte zu schreiben oder eine E-Mail zu versenden. Du findest umfassende Implementierungen von RAG unter Verwendung von Tools in der PyTorch-Dokumentation und in den multimodalen Anleitungen für Google Gemini.
KI-Agent: Ein KI-Agent ist das vollständige autonome System, das seine Umgebung wahrnimmt und Aktionen ergreift, um ein Ziel zu erreichen. Der Funktionsaufruf ist die primäre Fähigkeit, die einem Agenten die Möglichkeit gibt, diese Aktionen auszuführen. Beim Einsatz groß angelegter agentischer Systeme nutzen Teams häufig die Ultralytics Platform, um die zugrunde liegenden visuellen Modelle nahtlos zu trainieren und bereitzustellen, auf die diese Agenten zugreifen, um die Welt zu sehen. Organisationen, die von statischen Modellen auf agentische Arbeitsabläufe umstellen, verlassen sich häufig auf Deep-Learning-Bibliotheken wie TensorFlow, um die Endpunkte zu optimieren, mit denen diese Funktionen kommunizieren.

Function Calling (Tool Use)

Link to this sectionPraxisanwendungen#

Link to this sectionComputer Vision als Tool integrieren#

Link to this sectionUnterscheidung verwandter Begriffe#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!