Function Calling (Tool Use)

Explora cómo la invocación de funciones y el uso de herramientas permiten a la IA interactuar con API y bases de datos. Aprende a integrar Ultralytics YOLO26 en flujos de trabajo de agentes hoy mismo.

La llamada a funciones, a menudo denominada uso de herramientas, es un paradigma potente en la inteligencia artificial (IA) moderna que permite a los modelos ampliar sus capacidades más allá de la generación estática de texto o imágenes. En lugar de limitarse a responder a una consulta basada en datos de entrenamiento internos, el modelo puede generar comandos estructurados para activar funciones de programación externas, consultar bases de datos o interactuar con REST APIs. Este enfoque otorga eficazmente a la IA la capacidad de realizar acciones tangibles en entornos digitales.

Cuando un sistema de IA utiliza la llamada a funciones, los desarrolladores proporcionan al modelo una lista de herramientas disponibles descritas mediante JSON Schema. Si la consulta del usuario requiere datos en tiempo real o una acción específica, el modelo pausa su proceso de generación estándar y genera un payload en JSON format altamente estructurado que coincide con los parámetros requeridos de la herramienta seleccionada. Marcos de trabajo como la OpenAI's function calling API y el Anthropic's tool use framework han popularizado esta técnica, convirtiendo a los agentes conversacionales en capaces solucionadores de problemas.

Link to this sectionAplicaciones en el mundo real#

Integrar el uso de herramientas en los flujos de trabajo transforma el funcionamiento del software. Evaluadas mediante benchmarks como el Berkeley Function Calling Leaderboard, estas capacidades están impulsando un cambio hacia sistemas altamente autónomos.

Retail automatizado y atención al cliente: En IA en el sector minorista, un asistente virtual puede usar la invocación de funciones para consultar el inventario en tiempo real. Si un cliente pregunta: "¿Dónde está mi pedido?", el modelo genera una llamada a la función de una API de base de datos, recupera el estado de seguimiento y devuelve una respuesta en lenguaje natural.
Extracción de datos asistida por visión: Un vision-language model (VLM) puede utilizar detectores de objetos de Ultralytics YOLO como herramientas. Si se le pide verificar el cumplimiento de seguridad en una imagen de fábrica, la IA conversacional principal puede llamar a un script que ejecute un modelo Ultralytics YOLO26 para detectar cascos, devolviendo sin problemas los resultados de object detection al diálogo del usuario.

Link to this sectionIntegración de la visión artificial como herramienta#

Puedes exponer un modelo de visión artificial como una herramienta funcional para un AI agent general. En esta arquitectura, defines un método de Python que realiza la inferencia, el cual un modelo de razonamiento puede activar cuando se necesitan datos visuales.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Link to this sectionDiferenciación de términos relacionados#

Para comprender a fondo las arquitecturas de IA modernas, resulta útil entender cómo se relaciona la llamada a funciones con conceptos similares y en qué se diferencia de ellos:

Model Context Protocol (MCP): Mientras que la llamada a funciones se basa en definiciones de API específicas pasadas en la consulta del modelo, el MCP es una arquitectura global y estandarizada. El MCP crea un protocolo universal para conectar modelos de IA con fuentes de datos, mientras que la llamada a funciones es el mecanismo localizado que los modelos utilizan para invocar realmente esas conexiones.
Retrieval Augmented Generation (RAG): RAG es una metodología diseñada específicamente para obtener texto o documentos relevantes con el fin de aumentar la consulta de un LLM. La llamada a funciones es un mecanismo más amplio; una IA puede usar una herramienta para realizar RAG, pero también puede usar herramientas para escribir archivos en el disco o enviar un correo electrónico. Puedes encontrar implementaciones integrales de RAG utilizando herramientas en la PyTorch Documentation y en las Google Gemini multimodal guides.
AI Agent: Un agente de IA es el sistema autónomo completo que percibe su entorno y realiza acciones para lograr un objetivo. La llamada a funciones es la habilidad principal que otorga a un agente la capacidad de ejecutar esas acciones. Al implementar sistemas agentes a gran escala, los equipos suelen utilizar la Ultralytics Platform para entrenar y servir sin problemas los modelos visuales subyacentes a los que recurren estos agentes para ver el mundo. Las organizaciones que realizan la transición de modelos estáticos a flujos de trabajo agentes a menudo dependen de bibliotecas de aprendizaje profundo como TensorFlow para optimizar los endpoints con los que se comunican estas funciones.

Function Calling (Tool Use)

Link to this sectionAplicaciones en el mundo real#

Link to this sectionIntegración de la visión artificial como herramienta#

Link to this sectionDiferenciación de términos relacionados#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!