Glosario

Motor de inferencia

Descubra cómo los motores de inferencia potencian la IA proporcionando predicciones en tiempo real, optimizando modelos y permitiendo el despliegue multiplataforma.

En el ámbito de la inteligencia artificial (IA) y el aprendizaje automático (AM), un motor de inferencia es un componente crucial de software o hardware responsable de ejecutar modelos entrenados para realizar predicciones sobre datos nuevos y desconocidos. Después de que un modelo haya aprendido patrones durante la fase de entrenamiento, el motor de inferencia toma este modelo entrenado y lo aplica a entradas del mundo real. Este proceso, conocido como inferencia, permite a los sistemas de IA realizar tareas como la detección de objetos, la clasificación de imágenes o el procesamiento del lenguaje natural (PLN) en aplicaciones prácticas. Es esencialmente el corazón operativo de un modelo de IA desplegado, que traduce el conocimiento aprendido en resultados procesables de forma eficiente.

Cómo funcionan los motores de inferencia

Un motor de inferencia utiliza un modelo preentrenado, a menudo desarrollado mediante marcos de aprendizaje profundo (deep learning, DL) como PyTorch o TensorFlow, que encapsula los conocimientos necesarios para una tarea específica. Cuando se introducen nuevos datos (por ejemplo, una imagen, un clip de audio o una frase de texto), el motor de inferencia los procesa a través de la estructura computacional del modelo (a menudo una red neuronal). Esto genera un resultado, como la identificación de objetos con cuadros delimitadores en una imagen, la transcripción de un discurso o la clasificación de un sentimiento. Los modelos YOLO de Ultralytics, por ejemplo, dependen de motores de inferencia eficientes para lograr la detección y segmentación de objetos en tiempo real en diversas plataformas, desde potentes servidores en la nube hasta dispositivos de borde con recursos limitados. El rendimiento del motor de inferencia influye directamente en la velocidad y la capacidad de respuesta de la aplicación, que a menudo se mide por la latencia y el rendimiento de la inferencia.

Optimizaciones y funciones clave

Una función clave de los motores de inferencia modernos es la optimización. Ejecutar directamente un modelo de aprendizaje profundo grande y entrenado puede ser lento y costoso desde el punto de vista computacional. Los motores de inferencia emplean varias técnicas para hacer que los modelos sean más rápidos y eficientes, lo que permite su despliegue en hardware diverso. Las estrategias comunes de optimización de modelos incluyen:

  • Cuantización del modelo: Reducción de la precisión de los pesos del modelo (por ejemplo, de coma flotante de 32 bits a enteros de 8 bits) para disminuir el tamaño del modelo y acelerar el cálculo, a menudo con un impacto mínimo en la precisión.
  • Poda del modelo: Eliminación de conexiones (pesos) redundantes o sin importancia dentro de la red neuronal para crear un modelo más pequeño y rápido.
  • Optimización de gráficos: Fusión de capas o reordenación de operaciones en el grafo computacional del modelo para mejorar la eficiencia de ejecución en hardware específico.
  • Aceleración por hardware: Aprovechamiento de procesadores especializados como GPU, TPU o aceleradores de IA dedicados que se encuentran en dispositivos como Google Edge TPU o NVIDIA Jetson.

Muchos motores de inferencia también admiten formatos de modelo estandarizados como ONNX (Open Neural Network Exchange), que permite que los modelos entrenados en un marco (como PyTorch) se ejecuten utilizando un motor o plataforma diferente. Entre los motores de inferencia más populares se encuentran NVIDIA TensorRT, OpenVINO de Intel y TensorFlow Lite. Los modelos de Ultralytics admiten la exportación a varios formatos compatibles con estos motores, detallados en la guía Opciones de despliegue de modelos.

Motor de inferencia frente a marco de formación

Es importante distinguir los motores de inferencia de los marcos de formación.

  • Marcos de formación (por ejemplo, PyTorch, TensorFlow, Keras): Se trata de bibliotecas completas que se utilizan para crear, entrenar y validar modelos de aprendizaje automático. Proporcionan herramientas para definir arquitecturas de red, implementar la retropropagación, gestionar conjuntos de datos y calcular funciones de pérdida. Se centran en la flexibilidad y el proceso de aprendizaje.
  • Motores de inferencia (por ejemplo, TensorRT, OpenVINO, ONNX Runtime): Son herramientas especializadas diseñadas para ejecutar eficientemente modelos preentrenados para tareas de predicción(despliegue de modelos). Se centran principalmente en optimizar la velocidad(baja latencia), el uso de poca memoria y la compatibilidad con el hardware de destino. A menudo toman modelos entrenados con marcos de trabajo y los convierten a un formato optimizado.

Aplicaciones reales

Los motores de inferencia son fundamentales para desplegar la IA en escenarios prácticos:

  1. Vehículos autónomos: Los coches autónomos(como los desarrollados por Waymo) dependen en gran medida de motores de inferencia eficientes que se ejecutan en hardware embebido(como las plataformas NVIDIA Jetson) para procesar los datos de los sensores (cámaras, LiDAR) en tiempo real. Los motores optimizan complejos modelos de visión por ordenador como YOLO para tareas como la detección de objetos (detección de coches, peatones, señales) y la segmentación semántica (comprensión del trazado de la carretera) con un retraso mínimo, lo que es crucial para la seguridad. Más información sobre la IA en soluciones de automoción.
  2. Análisis de imágenes médicas: Los motores de inferencia aceleran el análisis de exploraciones médicas (rayos X, TAC, IRM) para tareas como la detección de tumores(véase el conjunto de datos sobre tumores cerebrales) o anomalías. Los modelos optimizados desplegados mediante motores de inferencia pueden ejecutarse rápidamente en servidores hospitalarios o dispositivos médicos especializados, ayudando a los radiólogos(lea sobre IA en radiología) al proporcionar diagnósticos más rápidos o segundas opiniones. Consulte las soluciones de IA en sanidad.

En esencia, los motores de inferencia tienden un puente entre los modelos de IA formados y su aplicación práctica, garantizando que las sofisticadas capacidades de IA puedan ofrecerse de forma eficiente y eficaz a través de una amplia gama de dispositivos y plataformas, incluida la gestión de modelos a través de plataformas como Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles