Function Calling (Tool Use)
関数呼び出しとツール使用が、いかにAIがAPIやデータベースと対話する力を高めるか解説します。Ultralytics YOLO26をエージェントワークフローに統合する方法を今すぐ学びましょう。
Function callingは、ツール使用とも呼ばれ、現代の人工知能 (AI)における強力なパラダイムです。これにより、モデルは静的なテキストや画像の生成を超えた能力を発揮できるようになります。単に内部の学習データに基づいてプロンプトに回答するだけでなく、モデルは構造化されたコマンドを出力して、外部のプログラミング関数をトリガーしたり、データベースをクエリしたり、REST APIと対話したりすることが可能です。このアプローチにより、AIはデジタル環境で具体的なアクションを実行する能力を効果的に備えることになります。
AIシステムがFunction callingを利用する際、開発者はJSON Schemaを使用して記述された利用可能なツールの一覧をモデルに提供します。ユーザーのプロンプトがリアルタイムのデータや特定のアクションを必要とする場合、モデルは標準的な生成プロセスを一時停止し、選択されたツールの必須パラメータと一致する高度に構造化されたJSON formatペイロードを出力します。OpenAI's function calling APIやAnthropic's tool use frameworkのようなフレームワークがこの技術を普及させ、会話型エージェントを能力の高い問題解決者に変貌させています。
Link to this section実社会での応用#
ツール使用をワークフローに統合することで、ソフトウェアの動作方法が変わります。Berkeley Function Calling Leaderboardのようなベンチマークで評価されているこれらの機能は、高度に自律的なシステムへの移行を推進しています。
- 自動化された小売および顧客サービス: AI in retailにおいて、バーチャルアシスタントはFunction callingを使用して在庫状況を照会できます。顧客が「注文はどこですか?」と尋ねると、モデルはデータベースAPIへの関数呼び出しを生成し、追跡ステータスを取得して、自然言語で回答を返します。
- ビジョン支援によるデータ抽出: vision-language model (VLM)は、Ultralytics YOLOオブジェクト検出器をツールとして使用できます。工場内の画像で安全コンプライアンスを検証するよう求められた場合、メインの会話型AIはUltralytics YOLO26モデルを実行するスクリプトを呼び出してヘルメットを検出し、そのobject detection結果をシームレスにユーザーの対話へと返します。
Link to this sectionツールとしてのコンピュータビジョンの統合#
コンピュータビジョンモデルを、包括的なAI agentのための機能的なツールとして公開できます。このアーキテクチャでは、推論を実行するPythonメソッドを定義し、視覚データが必要な時に推論モデルがそれをトリガーできるようにします。
from ultralytics import YOLO
# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
# Load the highly efficient YOLO26 model
model = YOLO("yolo26n.pt")
# Perform inference to analyze the visual data
results = model(image_url)
object_count = len(results[0].boxes)
# Return structured context back to the calling AI system
return f"Vision Analysis: Detected {object_count} objects in the scene."
# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))Link to this section関連用語の区別#
現代のAIアーキテクチャを完全に把握するには、Function callingが類似の概念とどのように関連し、また異なるかを理解することが役立ちます。
- Model Context Protocol (MCP): Function callingはモデルのプロンプトで渡される特定のAPI定義に依存しますが、MCPは全体を統括する標準化されたアーキテクチャです。MCPはAIモデルをデータソースに接続するためのユニバーサルなプロトコルを作成するのに対し、Function callingはモデルが実際にそれらの接続を呼び出すために使用する局所的なメカニズムです。
- Retrieval Augmented Generation (RAG): RAGは、LLMのプロンプトを強化するために、関連するテキストやドキュメントを取得するように設計された手法です。Function callingはより広範なメカニズムであり、AIはRAGを実行するためにツールを使用することもできますが、ディスクへのファイル書き込みやメール送信にもツールを使用できます。ツールを利用したRAGの包括的な実装については、PyTorch DocumentationやGoogle Gemini multimodal guidesを参照してください。
- AI Agent: AI agentとは、環境を認識し、目標を達成するために行動を起こす完全な自律システムです。Function callingは、エージェントにそれらの行動を実行する能力を与える主要なスキルです。大規模なエージェントシステムを展開する際、チームはUltralytics Platformを使用して、エージェントが世界を見るために呼び出す基盤となる視覚モデルをシームレスに学習・提供します。静的なモデルからエージェント型のワークフローへ移行する組織は、多くの場合TensorFlowのようなディープラーニングライブラリを利用して、これらの関数が通信するエンドポイントを最適化しています。






