Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Вызов функций (использование инструментов)

Узнайте, как вызов функций и использование инструментов позволяют ИИ взаимодействовать с API и базами данных. Узнайте, как интегрировать Ultralytics в агентские рабочие процессы уже сегодня.

Вызов функций, часто называемый использованием инструментов, является мощной парадигмой в современном искусственном интеллекте (ИИ), которая позволяет моделям расширять свои возможности за пределы статического генерации текста или изображений. Вместо того, чтобы просто отвечать на запрос на основе внутренних обучающих данных, модель может выводить структурированные команды для запуска внешних программных функций, запроса баз данных или взаимодействия с REST API. Такой подход эффективно даёт ИИ возможность предпринимать конкретные действия в цифровой среде.

Когда система искусственного интеллекта использует вызов функций, разработчики предоставляют модели список доступных инструментов, описанных с помощью JSON Schema. Если запрос пользователя требует данных в реальном времени или конкретного действия, модель приостанавливает свой стандартный процесс генерации и выдает высокоструктурированный пакет данных в формате JSON, соответствующий требуемым параметрам выбранного инструмента. Такие фреймворки, как API вызова функций OpenAI и фреймворк использования инструментовAnthropic, популяризировали эту технику, превратив диалоговых агентов в способных решать проблемы.

Применение в реальном мире

Интеграция использования инструментов в рабочие процессы трансформирует способ работы программного обеспечения. По оценкам таких бенчмарков, как Berkeley Function Calling Leaderboard, эти возможности способствуют переходу к высокоавтономным системам.

  • Автоматизированная розничная торговля и обслуживание клиентов: в сфере искусственного интеллекта в розничной торговле виртуальный помощник может использовать функцию вызова для просмотра текущих запасов. Если клиент спрашивает: «Где мой заказ?», модель генерирует вызов функции к API базы данных, извлекает статус отслеживания и возвращает ответ на естественном языке.
  • Извлечение данных с помощью зрения: модель зрения-языка (VLM) может использовать Ultralytics YOLO объектные детекторы в качестве инструментов. Если требуется проверить соблюдение безопасности на изображении завода, основной диалоговый ИИ может вызвать скрипт, запускающий модель Ultralytics для detect , и беспрепятственно возвращать результаты обнаружения объектов в диалог пользователя.

Интеграция компьютерного зрения в качестве инструмента

Модель компьютерного зрения можно представить в качестве функционального инструмента для общего ИИ-агента. В этой архитектуре вы определяете Python , который выполняет вывод, который модель рассуждения может запускать, когда требуются визуальные данные.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Дифференциация смежных терминов

Чтобы полностью понять современные архитектуры ИИ, полезно понять, как вызов функций соотносится с подобными концепциями и чем отличается от них:

  • Протокол контекста модели (MCP): В то время как вызов функций основан на определенных определениях API, передаваемых в командной строке модели, MCP представляет собой всеобъемлющую стандартизированную архитектуру. MCP создает универсальный протокол для подключения моделей ИИ к источникам данных, тогда как вызов функций является локализованным механизмом, который модели используют для фактического вызова этих подключений.
  • Retrieval Augmented Generation (RAG): RAG — это методология, специально разработанная для поиска релевантных текстов или документов с целью расширения возможностей LLM. Вызов функций — это более широкий механизм; ИИ может использовать инструмент для выполнения RAG, но также может использовать инструменты для записи файлов на диск или отправки электронной почты. Вы можете найти исчерпывающие реализации RAG с использованием инструментов в PyTorch и мультимодальных руководствахGoogle .
  • AI Agent: AI Agent — это полностью автономная система, которая воспринимает окружающую среду и предпринимает действия для достижения цели. Вызов функций — это основной навык, который дает агенту возможность выполнять эти действия. При развертывании крупномасштабных агентских систем команды часто используют Ultralytics для беспрепятственного обучения и обслуживания базовых визуальных моделей, которые эти агенты используют для восприятия мира. Организации, переходящие от статических моделей к агентским рабочим процессам, часто полагаются на библиотеки глубокого обучения, такие как TensorFlow для оптимизации конечных точек, с которыми взаимодействуют эти функции.

Зарядитесь энергией с помощью Ultralytics YOLO

Получите передовое AI-зрение для ваших проектов. Найдите подходящую лицензию для ваших целей уже сегодня.

Изучите варианты лицензирования