Implementación de modelos
Descubre los aspectos esenciales de la implementación de modelos, transformando los modelos de ML en herramientas del mundo real para predicciones, automatización e insights impulsados por la IA.
La implantación de modelos representa la fase crucial del ciclo de vida del aprendizaje automático, en la que un modelo
en el que un modelo de aprendizaje automático
en un entorno de producción para actuar sobre datos reales. Sirve de puente entre el desarrollo -donde los modelos se entrenan y se validan en entornos controlados- y la aplicación en el mundo real, donde generan valor al actuar sobre datos reales.
se entrenan y validan en entornos controlados- y la aplicación en el mundo real, en la que generan valor al proporcionar información procesable.
información práctica. Sin un despliegue eficaz, incluso la red neuronal
red neuronal (NN) sigue siendo un archivo estático, incapaz
de interactuar con usuarios finales o sistemas de software externos. El objetivo principal es que las capacidades predictivas del modelo sean accesibles, fiables y escalables.
del modelo sean accesibles, fiables y escalables para aplicaciones que van desde aplicaciones móviles a servicios empresariales en la nube.
empresariales.
El proceso de implantación
La transición de un modelo de un entorno de investigación a la producción suele implicar un proceso estructurado diseñado para garantizar el rendimiento y la estabilidad.
garantizar el rendimiento y la estabilidad.
-
Optimización del modelo: Antes de que un modelo abandone el entorno de entrenamiento, a menudo se somete a
optimización del modelo para
mejorar la velocidad de ejecución y reducir el uso de memoria. Técnicas como la
cuantización reducen la precisión de los
del modelo (por ejemplo, de 32 bits de coma flotante a enteros de 8 bits), lo que reduce drásticamente los requisitos informáticos
con un impacto mínimo en la precisión.
-
Exportación del modelo: El modelo optimizado se convierte a un formato estándar que es independiente del
marco de formación. Formatos como el
ONNX (Intercambio abierto de redes neuronales)
permiten que los modelos entrenados en PyTorch se ejecuten en varios motores de inferencia. Para una aceleración específica del hardware, los desarrolladores
pueden exportar a TensorRT para GPUs NVIDIA u OpenVINO para
CPU de Intel .
-
Contenedorización: Para asegurar que el modelo se ejecuta de forma consistente en diferentes entornos informáticos, es
es una práctica común el uso de contenedores.
Herramientas como Docker empaquetan el modelo, sus
dependencias y el entorno de ejecución en una única unidad ligera, eliminando los problemas de "funciona en mi máquina".
funciona en mi máquina".
-
Orquestación y escalado: En escenarios de alta demanda, los contenedores desplegados son gestionados por
sistemas de orquestación como Kubernetes. Estas plataformas gestionan
escalabilidad, creando automáticamente nuevas instancias
automáticamente nuevas instancias del modelo para hacer frente a los picos de tráfico y garantizar una alta disponibilidad.
Entornos de implementación
La elección del entorno depende en gran medida de los requisitos de la aplicación en cuanto a
latencia de la inferencia, la privacidad de los
conectividad.
-
Despliegue en la nube: Modelos de alojamiento en plataformas en la nube como
AWS SageMaker o
Google Vertex AI ofrece una potencia computacional prácticamente ilimitada y
y una escalabilidad sencilla. Esto es ideal para
grandes modelos lingüísticos (LLM) o tareas de
tareas de procesamiento por lotes en las que la respuesta en tiempo real es menos crítica.
-
Edge AI: Para aplicaciones que requieren
inferencia en tiempo real sin
de Internet, los modelos se despliegan directamente en dispositivos locales.
Edge AI utiliza hardware compacto, como el
NVIDIA Jetson o la
Raspberry Pi, para procesar los datos en la fuente. Este enfoque minimiza
latencia y mejora la privacidad de los datos
información sensible en el dispositivo.
-
Basado en navegador: Frameworks como TensorFlow.js permiten
ejecutarse por completo en un navegador web utilizando el hardware del cliente. Este enfoque sin instalación es excelente para
aplicaciones web interactivas y tareas
ligeras de visión por ordenador (CV).
Aplicaciones en el mundo real
-
Control de calidad de fabricación automatizado: En una fábrica, un
YOLO11 de detección de objetos en un dispositivo
conectado a una cámara sobre una cinta transportadora. A medida que pasan los productos, el modelo detecta en tiempo real
detección de anomalías en tiempo real para
grietas o etiquetas desalineadas. El sistema activa al instante un brazo mecánico para retirar los artículos defectuosos, lo que aumenta significativamente la eficacia en comparación con la inspección manual.
significativamente la eficacia en comparación con la inspección manual. Más información sobre
La IA en la fabricación.
-
Análisis inteligente del comercio minorista: Los minoristas despliegan
modelos de seguimiento de objetos para
comportamiento de los clientes en las tiendas. Mediante el procesamiento de secuencias de vídeo en un servidor local, el sistema genera mapas térmicos de las zonas de mayor afluencia y controla la longitud de las colas.
y controla la longitud de las colas. Estos datos ayudan a los gestores a optimizar la distribución de las tiendas y la dotación de personal. Vea cómo
la IA está transformando la experiencia
la experiencia de compra.
Conceptos relacionados: Despliegue vs. Servicio vs. MLOps
Es importante distinguir "Despliegue de Modelos" de los términos relacionados en el ecosistema:
-
Despliegue de modelos frente a servicio de modelos: El despliegue se refiere al proceso global de poner un modelo en producción. El servicio de modelos es el mecanismo
o software (como
NVIDIA Triton Inference Server o
TorchServe) que escucha las solicitudes de la API y ejecuta el modelo para generar predicciones.
generar predicciones. El servicio es un componente del despliegue.
-
Despliegue de modelos frente a
MLOps: La implantación es una fase aislada dentro del marco más amplio de MLOps. MLOps (operaciones de aprendizaje automático) abarca
todo el ciclo de vida, incluida la recopilación de datos, la formación, la evaluación, el despliegue y la supervisión
monitorización continua del modelo para detect
desviación de datos.
Exportación de un modelo para su implantación
Un primer paso común en el despliegue es exportar un modelo entrenado a un formato altamente compatible. El siguiente ejemplo
muestra cómo exportar un modelo YOLO11 al formato ONNX utilizando la función ultralytics paquete, preparándolo
para su despliegue en diversas plataformas.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")