Function Calling (Tool Use)

Узнай, как вызов функций и использование инструментов позволяют ИИ взаимодействовать с API и базами данных. Научись интегрировать Ultralytics YOLO26 в агентные рабочие процессы уже сегодня.

Вызов функций, который часто называют использованием инструментов, — это мощная парадигма в современной искусственном интеллекте (ИИ), позволяющая моделям расширять свои возможности за пределы простого создания текста или изображений. Вместо того чтобы ограничиваться ответами на запросы на основе внутренних данных обучения, модель может выводить структурированные команды для запуска внешних программных функций, выполнения запросов к базам данных или взаимодействия с REST API. Этот подход эффективно наделяет ИИ способностью совершать реальные действия в цифровых средах.

Когда система ИИ использует вызов функций, разработчики предоставляют модели список доступных инструментов, описанных с помощью JSON Schema. Если запрос пользователя требует данных в реальном времени или выполнения конкретного действия, модель приостанавливает стандартный процесс генерации и выводит полезную нагрузку в структурированном формате JSON, соответствующую требуемым параметрам выбранного инструмента. Такие фреймворки, как API вызова функций OpenAI и фреймворк для использования инструментов Anthropic, популяризировали эту технику, превращая диалоговых агентов в способных решать задачи специалистов.

Link to this sectionРеальные приложения#

Интеграция использования инструментов в рабочие процессы меняет принципы работы программного обеспечения. Оцениваемые такими бенчмарками, как Berkeley Function Calling Leaderboard, эти возможности способствуют переходу к высокоавтономным системам.

Автоматизированная розничная торговля и обслуживание клиентов: В сфере искусственного интеллекта в розничной торговле виртуальный помощник может использовать вызов функций для проверки наличия товаров в режиме реального времени. Если клиент спрашивает: "Где мой заказ?", модель генерирует вызов функции к API базы данных, получает статус отслеживания и возвращает ответ на естественном языке.
Извлечение данных с помощью машинного зрения: Модель «зрение-язык» (VLM) может использовать детекторы объектов Ultralytics YOLO в качестве инструментов. Если нужно проверить соблюдение правил техники безопасности на изображении завода, основной разговорный ИИ может вызвать скрипт, запускающий модель Ultralytics YOLO26 для обнаружения защитных касок, и плавно вернуть результаты обнаружения объектов в диалог с пользователем.

Link to this sectionИнтеграция компьютерного зрения как инструмента#

Ты можешь представить модель компьютерного зрения как функциональный инструмент для всеобъемлющего ИИ-агента. В этой архитектуре ты определяешь метод Python, выполняющий логический вывод (инференс), который модель рассуждения может активировать, когда требуются визуальные данные.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Link to this sectionРазграничение похожих терминов#

Чтобы полностью понять современные архитектуры ИИ, полезно разобраться, как вызов функций соотносится с похожими концепциями и чем он от них отличается:

Протокол контекста модели (MCP): В то время как вызов функций опирается на конкретные определения API, передаваемые в запросе модели, MCP — это всеобъемлющая стандартизированная архитектура. MCP создает универсальный протокол для подключения моделей ИИ к источникам данных, тогда как вызов функций — это локализованный механизм, который модели используют для фактического вызова этих соединений.
Генеративно-поисковая модель (RAG): RAG — это методология, разработанная специально для извлечения релевантного текста или документов с целью дополнения запроса LLM. Вызов функций — это более широкий механизм; ИИ может использовать инструмент для выполнения RAG, но он также может применять инструменты для записи файлов на диск или отправки электронного письма. Ты можешь найти исчерпывающие реализации RAG с использованием инструментов в документации PyTorch и руководствах Google Gemini по мультимодальности.
ИИ-агент: ИИ-агент — это полная автономная система, которая воспринимает свою среду и предпринимает действия для достижения цели. Вызов функций — это основной навык, который дает агенту способность выполнять такие действия. При развертывании крупномасштабных агентных систем команды часто используют платформу Ultralytics для бесшовного обучения и обслуживания базовых визуальных моделей, к которым обращаются эти агенты, чтобы «видеть» мир. Организации, переходящие от статических моделей к агентным рабочим процессам, часто полагаются на библиотеки глубокого обучения, такие как TensorFlow, для оптимизации конечных точек, с которыми взаимодействуют эти функции.

Function Calling (Tool Use)

Link to this sectionРеальные приложения#

Link to this sectionИнтеграция компьютерного зрения как инструмента#

Link to this sectionРазграничение похожих терминов#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!