Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Llamada de funciones (uso de herramientas)

Descubra cómo las llamadas a funciones y el uso de herramientas permiten a la IA interactuar con API y bases de datos. Aprenda a integrar Ultralytics en flujos de trabajo agenticos hoy mismo.

La llamada a funciones, a menudo denominada «uso de herramientas», es un potente paradigma de la inteligencia artificial moderna (IA) que permite a los modelos ampliar sus capacidades más allá de la generación estática de texto o imágenes. En lugar de limitarse a responder a una solicitud basada en datos de entrenamiento internos, el modelo puede generar comandos estructurados para activar funciones de programación externas, consultar bases de datos o interactuar con API REST. Este enfoque proporciona a la IA la capacidad de realizar acciones tangibles en entornos digitales.

Cuando un sistema de IA utiliza la llamada a funciones, los desarrolladores proporcionan al modelo una lista de herramientas disponibles descritas mediante JSON Schema. Si la solicitud del usuario requiere datos en tiempo real o una acción específica , el modelo pausa su proceso de generación estándar y genera una carga útil en formato JSON altamente estructurada que coincide con los parámetros requeridos de la herramienta seleccionada. Marcos como la API de llamada a funciones de OpenAI y el marco de uso de herramientasAnthropic han popularizado esta técnica, convirtiendo a los agentes conversacionales en capaces solucionadores de problemas.

Aplicaciones en el mundo real

La integración del uso de herramientas en los flujos de trabajo transforma el funcionamiento del software. Evaluadas por puntos de referencia como el Berkeley Function Calling Leaderboard, estas capacidades están impulsando un cambio hacia sistemas altamente autónomos.

  • Venta minorista y servicio al cliente automatizados: En la IA en el comercio minorista, un asistente virtual puede utilizar llamadas a funciones para consultar el inventario en tiempo real. Si un cliente pregunta «¿Dónde está mi pedido?», el modelo genera una llamada a una función de la API de la base de datos, recupera el estado de seguimiento y devuelve una respuesta en lenguaje natural.
  • Extracción de datos asistida por visión: un modelo de lenguaje visual (VLM) puede utilizar Ultralytics YOLO como herramientas. Si se le pide que verifique el cumplimiento de las normas de seguridad en una imagen de una fábrica, la IA conversacional principal puede llamar a un script que ejecuta un modelo Ultralytics para detect , devolviendo de forma fluida los resultados de la detección de objetos al diálogo del usuario.

Integración de la visión artificial como herramienta

Puede exponer un modelo de visión por ordenador como herramienta funcional para un agente de IA global. En esta arquitectura, se define un Python que realiza la inferencia, que un modelo de razonamiento puede activar cuando se necesitan datos visuales.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Diferenciar términos relacionados

Para comprender plenamente las arquitecturas modernas de IA, resulta útil entender cómo la llamada a funciones se relaciona y difiere de conceptos similares:

  • Protocolo de contexto del modelo (MCP): Mientras que la llamada a funciones se basa en definiciones API específicas pasadas en el prompt del modelo, el MCP es una arquitectura global y estandarizada. El MCP crea un protocolo universal para conectar modelos de IA a fuentes de datos, mientras que la llamada a funciones es el mecanismo localizado que utilizan los modelos para invocar realmente esas conexiones.
  • Generación aumentada por recuperación (RAG): RAG es una metodología diseñada específicamente para recuperar texto o documentos relevantes con el fin de aumentar la capacidad de respuesta de un LLM. La llamada a funciones es un mecanismo más amplio; una IA puede utilizar una herramienta para realizar RAG, pero también puede utilizar herramientas para escribir archivos en el disco o enviar un correo electrónico. Puede encontrar implementaciones completas de RAG utilizando herramientas en la PyTorch y en las guías multimodalesGoogle .
  • Agente de IA: Un agente de IA es un sistema completamente autónomo que percibe su entorno y realiza acciones para alcanzar un objetivo. La llamada a funciones es la habilidad principal que le da a un agente la capacidad de ejecutar esas acciones. Al implementar sistemas agenticos a gran escala , los equipos suelen utilizar la Ultralytics para entrenar y servir de forma fluida los modelos visuales subyacentes que estos agentes utilizan para ver el mundo. Las organizaciones que están pasando de modelos estáticos a flujos de trabajo agenticos suelen confiar en bibliotecas de aprendizaje profundo como TensorFlow para optimizar los puntos finales con los que se comunican estas funciones.

Potencia con Ultralytics YOLO

Obtenga visión artificial avanzada para sus proyectos. Encuentre la licencia adecuada para sus objetivos hoy mismo.

Explore las opciones de licencia