Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Funktionsaufruf (Werkzeuggebrauch)

Entdecken Sie, wie Funktionsaufrufe und der Einsatz von Tools KI in die Lage versetzen, mit APIs und Datenbanken zu interagieren. Lernen Sie noch heute, wie Sie Ultralytics in agentenbasierte Workflows integrieren können.

Funktionsaufrufe, häufig auch als Tool-Nutzung bezeichnet, sind ein leistungsstarkes Paradigma in der modernen künstlichen Intelligenz (KI), das es Modellen ermöglicht, ihre Fähigkeiten über die statische Text- oder Bildgenerierung hinaus zu erweitern. Anstatt nur eine Eingabeaufforderung auf der Grundlage interner Trainingsdaten zu beantworten, kann das Modell strukturierte Befehle ausgeben, um externe Programmierfunktionen auszulösen, Datenbanken abzufragen oder mit REST-APIs zu interagieren. Dieser Ansatz gibt der KI effektiv die Fähigkeit, konkrete Aktionen in digitalen Umgebungen durchzuführen.

Wenn ein KI-System Funktionsaufrufe nutzt, stellen Entwickler dem Modell eine Liste der verfügbaren Tools zur Verfügung, die mithilfe von JSON Schema beschrieben werden. Wenn die Eingabeaufforderung des Benutzers Echtzeitdaten oder eine bestimmte Aktion erfordert, unterbricht das Modell seinen Standardgenerierungsprozess und gibt eine hochstrukturierte Nutzlast im JSON-Format aus, die den erforderlichen Parametern des ausgewählten Tools entspricht. Frameworks wie die Funktionsaufruf-API von OpenAI und das Tool-Use-FrameworkAnthropic haben diese Technik populär gemacht und Konversationsagenten zu fähigen Problemlösern gemacht.

Anwendungsfälle in der Praxis

Die Integration des Einsatzes von Werkzeugen in Arbeitsabläufe verändert die Funktionsweise von Software. Gemessen an Benchmarks wie dem Berkeley Function Calling Leaderboard treiben diese Fähigkeiten einen Wandel hin zu hochgradig autonomen Systemen voran.

  • Automatisierter Einzelhandel und Kundenservice: Im Einzelhandel kann ein virtueller Assistent mithilfe von Funktionsaufrufen den aktuellen Lagerbestand abfragen. Wenn ein Kunde fragt: „Wo ist meine Bestellung?“, generiert das Modell einen Funktionsaufruf an eine Datenbank-API, ruft den Tracking-Status ab und gibt eine Antwort in natürlicher Sprache zurück.
  • Vision-gestützte Datenextraktion: Ein Vision-Sprachmodell (VLM) kann Ultralytics YOLO Objektdetektoren als Werkzeuge verwenden. Wenn es darum geht, die Einhaltung von Sicherheitsvorschriften in einem Fabrikbild zu überprüfen, kann die zentrale dialogorientierte KI ein Skript aufrufen, das ein Ultralytics ausführt, um detect , und die Ergebnisse der Objekterkennung nahtlos an den Dialog des Benutzers zurückgeben.

Integration von Computer Vision als Werkzeug

Sie können ein Computer-Vision-Modell als funktionales Werkzeug für einen übergeordneten KI-Agenten bereitstellen. In dieser Architektur definieren Sie eine Python , die eine Inferenz durchführt, die ein Schlussfolgerungsmodell auslösen kann, wenn visuelle Daten benötigt werden.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Unterscheidung verwandter Begriffe

Um moderne KI-Architekturen vollständig zu verstehen, ist es hilfreich zu wissen, wie sich Funktionsaufrufe auf ähnliche Konzepte beziehen und von diesen unterscheiden :

  • Model Context Protocol (MCP): Während Funktionsaufrufe auf bestimmten API-Definitionen basieren, die in der Modellaufforderung übergeben werden, ist MCP eine übergreifende, standardisierte Architektur. MCP schafft ein universelles Protokoll für die Verbindung von KI-Modellen mit Datenquellen, während Funktionsaufrufe der lokalisierte Mechanismus sind, mit dem Modelle diese Verbindungen tatsächlich aufrufen.
  • Retrieval Augmented Generation (RAG): RAG ist eine Methodik, die speziell dafür entwickelt wurde, relevante Texte oder Dokumente abzurufen, um die Eingabeaufforderung eines LLM zu ergänzen. Die Funktionsaufruf ist ein umfassenderer Mechanismus: Eine KI kann ein Tool verwenden, um RAG auszuführen, aber sie kann auch Tools verwenden, um Dateien auf die Festplatte zu schreiben oder eine E-Mail zu versenden. Umfassende Implementierungen von RAG unter Verwendung von Tools finden Sie in der PyTorch und den multimodalen AnleitungenGoogle .
  • KI-Agent: Ein KI-Agent ist ein vollständig autonomes System, das seine Umgebung wahrnimmt und Maßnahmen ergreift, um ein Ziel zu erreichen. Der Aufruf von Funktionen ist die primäre Fähigkeit, die einem Agenten die Möglichkeit gibt, diese Maßnahmen auszuführen. Bei der Bereitstellung groß angelegter agentenbasierter Systeme nutzen Teams häufig die Ultralytics , um die zugrunde liegenden visuellen Modelle, die diese Agenten aufrufen, um die Welt zu sehen, nahtlos zu trainieren und bereitzustellen. Unternehmen, die von statischen Modellen zu agentenbasierten Arbeitsabläufen übergehen, verlassen sich häufig auf Deep-Learning-Bibliotheken wie TensorFlow , um die Endpunkte zu optimieren, mit denen diese Funktionen kommunizieren.

Leistungssteigerung mit Ultralytics YOLO

Erhalten Sie fortschrittliche KI-Vision für Ihre Projekte. Finden Sie noch heute die richtige Lizenz für Ihre Ziele.

Lizenzoptionen entdecken