Glosario

Modelo de servicio

Aprenda lo esencial del servicio de modelos: despliegue modelos de IA para predicciones en tiempo real, escalabilidad e integración perfecta en aplicaciones.

El servicio de modelos es el proceso de hacer que un modelo de aprendizaje automático (ML) entrenado esté disponible para recibir datos de entrada y devolver predicciones en un entorno de producción. Una vez que el modelo se ha entrenado y validado, el servicio es el paso crítico que lo transforma de un archivo estático en una herramienta activa y operativa que puede alimentar aplicaciones del mundo real. Implica desplegar el modelo en un servidor y crear una interfaz, normalmente una API, que permita a otros sistemas de software comunicarse con él para realizar inferencias en tiempo real.

Aunque estrechamente relacionado, el servicio de modelos es un componente específico dentro del proceso más amplio de despliegue de modelos. El despliegue abarca todo el flujo de trabajo de integración de un modelo en un entorno de producción, incluida la configuración y supervisión de la infraestructura. El servicio de modelos se refiere específicamente a la parte de esa infraestructura responsable de ejecutar el modelo y gestionar las solicitudes de inferencia de manera eficiente.

Componentes clave del modelo de servicio

Un sistema robusto de servicio de modelos consta de varios componentes integrados que trabajan juntos para ofrecer predicciones rápidas y fiables.

  • Formato del modelo: Antes de servir, un modelo debe empaquetarse en un formato estandarizado. Formatos como ONNX garantizan la interoperabilidad entre distintos marcos de trabajo. Para obtener el máximo rendimiento, los modelos pueden optimizarse con herramientas como TensorRT para GPU NVIDIA.
  • Marco de servicio: Software especializado que carga el modelo, gestiona los recursos de hardware como las GPU y procesa las solicitudes de inferencia. Entre los marcos más populares se incluyen TensorFlow Serving, PyTorch Serve y el servidor de inferencia de alto rendimiento NVIDIA Triton, que puede utilizarse con los modelos de Ultralytics a través de nuestra guía de integración de Triton.
  • API Endpoint: Es la pasarela de comunicación que permite a las aplicaciones cliente enviar datos (como una imagen o un texto) y recibir la predicción del modelo. REST y gRPC son protocolos API comunes utilizados para este fin.
  • Infraestructura: El hardware físico o virtual donde se ejecuta el modelo. Puede ir desde servidores locales hasta plataformas de computación en la nube como Amazon SageMaker y Google Cloud AI Platform. En el caso de las aplicaciones que requieren baja latencia, los modelos se sirven a menudo en dispositivos edge AI. La contenedorización con herramientas como Docker es esencial para crear entornos de servicio portátiles y escalables.
  • Supervisión y registro: Seguimiento continuo del rendimiento del modelo y del estado del sistema. Esto incluye la supervisión de métricas como la latencia y el rendimiento de la inferencia, así como la vigilancia de problemas como la desviación de datos, que puede degradar la precisión del modelo con el tiempo. Puede obtener más información en nuestra guía sobre la supervisión de modelos.

Aplicaciones reales

El servicio de modelos es el motor de innumerables funciones basadas en IA.

  1. Gestión de inventarios basada en IA: Una empresa minorista utiliza un modelo YOLO11 de Ultralytics para la gestión de inventarios en tiempo real. El modelo se empaqueta en formato ONNX y se ejecuta en un pequeño ordenador situado en el interior de la tienda. Una cámara envía una señal de vídeo al extremo servidor, que realiza una detección de objetos para contar los artículos en las estanterías y envía alertas cuando quedan pocas existencias.
  2. Análisis de imágenes médicas en la nube: Un sistema hospitalario despliega un sofisticado modelo de visión por ordenador para el análisis de imágenes médicas. Debido al gran tamaño del modelo y a las necesidades computacionales, se sirve en un potente servidor en la nube con varias GPU. Los radiólogos cargan las exploraciones de alta resolución a través de un portal seguro, que llama a la API de servicio. El modelo devuelve predicciones que ayudan a identificar posibles anomalías, lo que mejora la velocidad y la precisión del diagnóstico.

El papel de los MLOP

El servicio de modelos es la piedra angular de las operaciones de aprendizaje automático (MLOps). Una buena estrategia de MLOps garantiza que todo el ciclo de vida -desde el preprocesamiento de datos y la formación de modelos hasta el servicio y la supervisión- estéautomatizado y sea fiable y escalable. Plataformas como Ultralytics HUB están diseñadas para simplificar todo este flujo de trabajo, proporcionando una solución integrada para entrenar, versionar y servir modelos de visión artificial de forma eficaz.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles