YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

関数呼び出し(ツール利用)

関数呼び出しとツール使用がいかにAIをAPIやデータベースとの対話に活用させるかを探ります。今日からUltralytics YOLO26をエージェントワークフローに統合する方法を学びましょう。

関数呼び出し(しばしばツール利用と呼ばれる)は、現代の人工知能(AI)における強力なパラダイムであり、モデルが静的なテキストや画像生成を超えてその能力を拡張することを可能にします。内部のトレーニングデータに基づいてプロンプトに答えるだけでなく、モデルは外部のプログラミング関数をトリガーしたり、データベースをクエリしたり、REST APIと対話したりするための構造化されたコマンドを出力できます。このアプローチにより、AIはデジタル環境で具体的なアクションを実行する能力を効果的に得られます。

AIシステムが関数呼び出しを利用する場合、開発者は、JSON Schemaを使用して記述された利用可能なツールのリストをモデルに提供します。ユーザーのプロンプトがリアルタイムデータまたは特定の動作を要求する場合、モデルは標準の生成プロセスを一時停止し、選択されたツールの必須パラメータに一致する、高度に構造化されたJSON形式のペイロードを出力します。OpenAIの関数呼び出しAPIAnthropicのツール利用フレームワークのようなフレームワークがこの技術を普及させ、会話型エージェントを有能な問題解決者へと変化させました。

実際のアプリケーション

ワークフローにツール利用を統合することで、ソフトウェアの動作方法が変革されます。Berkeley Function Calling Leaderboardのようなベンチマークで評価されるこれらの機能は、高度に自律的なシステムへの移行を推進しています。

  • 自動小売および顧客サービス: AI in retailにおいて、仮想アシスタントは関数呼び出しを使用してリアルタイムの在庫を検索できます。顧客が「私の注文はどこですか?」と尋ねた場合、モデルはデータベースAPIへの関数呼び出しを生成し、trackステータスを取得し、自然言語応答を返します。
  • Vision-Assisted Data Extraction: ビジョン言語モデル (VLM)は、Ultralytics YOLO object detectorsをツールとして使用できます。工場画像における安全コンプライアンスの検証を求められた場合、メインの会話型AIは、Ultralytics YOLO26モデルを実行するスクリプトを呼び出してヘルメットをdetectし、object detection結果をユーザーのダイアログにシームレスに返します。

コンピュータービジョンをツールとして統合する

コンピュータビジョンモデルを、包括的なAIエージェントの機能ツールとして公開できます。このアーキテクチャでは、推論を実行するPythonメソッドを定義し、視覚データが必要なときに推論モデルがこれをトリガーできます。

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

関連用語の区別

現代のAIアーキテクチャを完全に理解するには、関数呼び出しが類似の概念とどのように関連し、異なるかを理解することが役立ちます。

  • Model Context Protocol (MCP): 関数呼び出しがモデルプロンプトで渡される特定のAPI定義に依存するのに対し、MCPは包括的な標準化されたアーキテクチャです。MCPはAIモデルをデータソースに接続するための普遍的なプロトコルを作成し、関数呼び出しはモデルが実際にそれらの接続を呼び出すために使用する局所的なメカニズムです。
  • 検索拡張生成 (RAG): RAGは、LLMのプロンプトを補強するために、関連するテキストやドキュメントを取得する目的で特別に設計された手法です。関数呼び出しはより広範なメカニズムであり、AIはRAGを実行するためにツールを使用できるだけでなく、ファイルをディスクに書き込んだり、メールを送信したりするためにもツールを使用できます。ツールを活用したRAGの包括的な実装については、PyTorchドキュメントおよびGoogle Geminiマルチモーダルガイドで確認できます。
  • AIエージェント: AIエージェントは、環境を認識し、目標を達成するために行動を起こす完全な自律システムです。関数呼び出しは、エージェントがこれらのアクションを実行する能力を与える主要なスキルです。大規模なエージェントシステムをデプロイする際、チームはしばしばUltralytics Platformを使用して、これらのエージェントが世界を認識するために呼び出す基盤となる視覚モデルをシームレスにトレーニングおよび提供します。静的モデルからエージェントワークフローに移行する組織は、これらの関数が通信するエンドポイントを最適化するために、TensorFlowのような深層学習ライブラリに依存することがよくあります。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。