Model Serving
Aprende cómo el servicio de modelos cierra la brecha entre los modelos entrenados y la producción. Explora estrategias de implementación para Ultralytics YOLO26 en la Plataforma Ultralytics.
El servicio de modelos es el proceso de alojar un modelo de machine learning entrenado y hacer que su funcionalidad esté disponible para aplicaciones de software a través de una interfaz de red. Actúa como el puente entre un archivo de modelo estático guardado en un disco y un sistema activo que procesa datos del mundo real. Una vez que un modelo ha completado la fase de entrenamiento de machine learning (ML), debe integrarse en un entorno de producción donde pueda recibir entradas (como imágenes, texto o datos tabulares) y devolver predicciones. Esto se logra normalmente encapsulando el modelo en una Application Programming Interface (API), lo que le permite comunicarse con servidores web, aplicaciones móviles o dispositivos IoT.
Link to this sectionEl papel del servicio de modelos en la IA#
El objetivo principal del servicio de modelos es operacionalizar de forma efectiva las capacidades de predictive modeling. Mientras que el entrenamiento se centra en la precisión y la minimización de la pérdida, el servicio se centra en métricas de rendimiento como la latencia (qué tan rápido se devuelve una predicción) y el throughput (cuántas solicitudes se pueden gestionar por segundo). Una infraestructura de servicio robusta asegura que los sistemas de computer vision (CV) permanezcan fiables bajo cargas pesadas. A menudo implica tecnologías como la containerization utilizando herramientas como Docker, que empaqueta el modelo con sus dependencias para asegurar un comportamiento consistente en diferentes entornos informáticos.
Link to this sectionAplicaciones en el mundo real#
El servicio de modelos impulsa funciones de IA ubicuas en diversos sectores al permitir una toma de decisiones inmediata basada en datos.
- Smart Manufacturing: En entornos industriales, los sistemas de AI in manufacturing utilizan modelos servidos para inspeccionar líneas de montaje. Imágenes de alta resolución de los componentes se envían a un servidor local, donde un modelo YOLO26 detecta defectos como arañazos o desalineaciones, activando alertas inmediatas para retirar los artículos defectuosos.
- Retail Automation: Los minoristas utilizan AI in retail para mejorar las experiencias de los clientes. Las cámaras servidas por modelos de object detection identifican productos en una zona de pago, sumando el coste total automáticamente sin necesidad de escaneo manual de códigos de barras.
Link to this sectionImplementación práctica#
Para servir un modelo eficazmente, suele ser beneficioso export models a un formato estandarizado como ONNX, lo que promueve la interoperabilidad entre diferentes marcos de trabajo de entrenamiento y motores de servicio. El siguiente ejemplo demuestra cómo cargar un modelo y ejecutar inferencias, simulando la lógica que existiría dentro de un punto de conexión de servicio utilizando Python.
from ultralytics import YOLO
# Load the YOLO26 model (this typically happens once when the server starts)
model = YOLO("yolo26n.pt")
# Simulate an incoming API request with an image source URL
image_source = "https://ultralytics.com/images/bus.jpg"
# Run inference to generate predictions for the user
results = model.predict(source=image_source)
# Process results (e.g., simulating a JSON response to a client)
print(f"Detected {len(results[0].boxes)} objects in the image.")Link to this sectionElegir la estrategia adecuada#
La elección de la estrategia de servicio depende en gran medida del caso de uso específico. Online Serving proporciona respuestas inmediatas a través de protocolos como REST o gRPC, lo cual es esencial para aplicaciones web orientadas al usuario. Por el contrario, Batch Serving procesa grandes volúmenes de datos sin conexión, adecuado para tareas como la generación de informes nocturnos. Para aplicaciones que requieren privacidad o baja latencia sin dependencia de internet, Edge AI traslada el proceso de servicio directamente al dispositivo, utilizando formatos optimizados como TensorRT para maximizar el rendimiento en hardware limitado. Muchas organizaciones aprovechan la Ultralytics Platform para simplificar el despliegue de estos modelos en varios puntos de conexión, incluyendo APIs en la nube y dispositivos edge.
Link to this sectionDistinción de términos relacionados#
Aunque están estrechamente relacionados, el "Servicio de modelos" es distinto del Model Deployment y la Inference.
- Model Deployment: Esto se refiere a la etapa más amplia del ciclo de vida de liberar un modelo en un entorno de producción. El servicio es el mecanismo específico o software (como NVIDIA Triton Inference Server o TorchServe) utilizado para ejecutar el modelo desplegado.
- Inference: Es el acto matemático de calcular una predicción a partir de una entrada. El servicio de modelos proporciona la infraestructura (redes, scalability y seguridad) que permite que la inference ocurra de manera fiable para los usuarios finales.
- Microservices: El servicio a menudo se diseña como un conjunto de microservices, donde el modelo se ejecuta como un servicio independiente que otras partes de una aplicación pueden consultar, intercambiando a menudo datos en formatos ligeros como JSON.






