Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Implementación de modelos

Descubre los aspectos esenciales de la implementación de modelos, transformando los modelos de ML en herramientas del mundo real para predicciones, automatización e insights impulsados por la IA.

La implantación de modelos representa la fase crucial del ciclo de vida del aprendizaje automático, en la que un modelo en el que un modelo de aprendizaje automático en un entorno de producción para actuar sobre datos reales. Sirve de puente entre el desarrollo -donde los modelos se entrenan y se validan en entornos controlados- y la aplicación en el mundo real, donde generan valor al actuar sobre datos reales. se entrenan y validan en entornos controlados- y la aplicación en el mundo real, en la que generan valor al proporcionar información procesable. información práctica. Sin un despliegue eficaz, incluso la red neuronal red neuronal (NN) sigue siendo un archivo estático, incapaz de interactuar con usuarios finales o sistemas de software externos. El objetivo principal es que las capacidades predictivas del modelo sean accesibles, fiables y escalables. del modelo sean accesibles, fiables y escalables para aplicaciones que van desde aplicaciones móviles a servicios empresariales en la nube. empresariales.

El proceso de implantación

La transición de un modelo de un entorno de investigación a la producción suele implicar un proceso estructurado diseñado para garantizar el rendimiento y la estabilidad. garantizar el rendimiento y la estabilidad.

  1. Optimización del modelo: Antes de que un modelo abandone el entorno de entrenamiento, a menudo se somete a optimización del modelo para mejorar la velocidad de ejecución y reducir el uso de memoria. Técnicas como la cuantización reducen la precisión de los del modelo (por ejemplo, de 32 bits de coma flotante a enteros de 8 bits), lo que reduce drásticamente los requisitos informáticos con un impacto mínimo en la precisión.
  2. Exportación del modelo: El modelo optimizado se convierte a un formato estándar que es independiente del marco de formación. Formatos como el ONNX (Intercambio abierto de redes neuronales) permiten que los modelos entrenados en PyTorch se ejecuten en varios motores de inferencia. Para una aceleración específica del hardware, los desarrolladores pueden exportar a TensorRT para GPUs NVIDIA u OpenVINO para CPU de Intel .
  3. Contenedorización: Para asegurar que el modelo se ejecuta de forma consistente en diferentes entornos informáticos, es es una práctica común el uso de contenedores. Herramientas como Docker empaquetan el modelo, sus dependencias y el entorno de ejecución en una única unidad ligera, eliminando los problemas de "funciona en mi máquina". funciona en mi máquina".
  4. Orquestación y escalado: En escenarios de alta demanda, los contenedores desplegados son gestionados por sistemas de orquestación como Kubernetes. Estas plataformas gestionan escalabilidad, creando automáticamente nuevas instancias automáticamente nuevas instancias del modelo para hacer frente a los picos de tráfico y garantizar una alta disponibilidad.

Entornos de implementación

La elección del entorno depende en gran medida de los requisitos de la aplicación en cuanto a latencia de la inferencia, la privacidad de los conectividad.

  • Despliegue en la nube: Modelos de alojamiento en plataformas en la nube como AWS SageMaker o Google Vertex AI ofrece una potencia computacional prácticamente ilimitada y y una escalabilidad sencilla. Esto es ideal para grandes modelos lingüísticos (LLM) o tareas de tareas de procesamiento por lotes en las que la respuesta en tiempo real es menos crítica.
  • Edge AI: Para aplicaciones que requieren inferencia en tiempo real sin de Internet, los modelos se despliegan directamente en dispositivos locales. Edge AI utiliza hardware compacto, como el NVIDIA Jetson o la Raspberry Pi, para procesar los datos en la fuente. Este enfoque minimiza latencia y mejora la privacidad de los datos información sensible en el dispositivo.
  • Basado en navegador: Frameworks como TensorFlow.js permiten ejecutarse por completo en un navegador web utilizando el hardware del cliente. Este enfoque sin instalación es excelente para aplicaciones web interactivas y tareas ligeras de visión por ordenador (CV).

Aplicaciones en el mundo real

  • Control de calidad de fabricación automatizado: En una fábrica, un YOLO11 de detección de objetos en un dispositivo conectado a una cámara sobre una cinta transportadora. A medida que pasan los productos, el modelo detecta en tiempo real detección de anomalías en tiempo real para grietas o etiquetas desalineadas. El sistema activa al instante un brazo mecánico para retirar los artículos defectuosos, lo que aumenta significativamente la eficacia en comparación con la inspección manual. significativamente la eficacia en comparación con la inspección manual. Más información sobre La IA en la fabricación.
  • Análisis inteligente del comercio minorista: Los minoristas despliegan modelos de seguimiento de objetos para comportamiento de los clientes en las tiendas. Mediante el procesamiento de secuencias de vídeo en un servidor local, el sistema genera mapas térmicos de las zonas de mayor afluencia y controla la longitud de las colas. y controla la longitud de las colas. Estos datos ayudan a los gestores a optimizar la distribución de las tiendas y la dotación de personal. Vea cómo la IA está transformando la experiencia la experiencia de compra.

Conceptos relacionados: Despliegue vs. Servicio vs. MLOps

Es importante distinguir "Despliegue de Modelos" de los términos relacionados en el ecosistema:

  • Despliegue de modelos frente a servicio de modelos: El despliegue se refiere al proceso global de poner un modelo en producción. El servicio de modelos es el mecanismo o software (como NVIDIA Triton Inference Server o TorchServe) que escucha las solicitudes de la API y ejecuta el modelo para generar predicciones. generar predicciones. El servicio es un componente del despliegue.
  • Despliegue de modelos frente a MLOps: La implantación es una fase aislada dentro del marco más amplio de MLOps. MLOps (operaciones de aprendizaje automático) abarca todo el ciclo de vida, incluida la recopilación de datos, la formación, la evaluación, el despliegue y la supervisión monitorización continua del modelo para detect desviación de datos.

Exportación de un modelo para su implantación

Un primer paso común en el despliegue es exportar un modelo entrenado a un formato altamente compatible. El siguiente ejemplo muestra cómo exportar un modelo YOLO11 al formato ONNX utilizando la función ultralytics paquete, preparándolo para su despliegue en diversas plataformas.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora