Descubre cómo los motores de inferencia potencian la IA proporcionando predicciones en tiempo real, optimizando modelos y permitiendo el despliegue multiplataforma.
En el ámbito de la inteligencia artificial (IA) y el aprendizaje automático (AM), un motor de inferencia es un componente crucial de software o hardware responsable de ejecutar modelos entrenados para hacer predicciones sobre datos nuevos y no vistos. Después de que un modelo haya aprendido patrones durante la fase de entrenamiento, el motor de inferencia toma este modelo entrenado y lo aplica a entradas del mundo real. Este proceso, conocido como inferencia, permite a los sistemas de IA realizar tareas como la detección de objetos, la clasificación de imágenes o el procesamiento del lenguaje natural (PLN ) en aplicaciones prácticas. Es esencialmente el corazón operativo de un modelo de IA desplegado, que traduce el conocimiento aprendido en resultados procesables de forma eficiente.
Un motor de inferencia utiliza un modelo preentrenado, a menudo desarrollado utilizando marcos de aprendizaje profundo (deep learning, DL) como PyTorch o TensorFlowque encapsula el conocimiento necesario para una tarea específica. Cuando se proporcionan nuevos datos (por ejemplo, una imagen, un clip de audio o una frase de texto) como entrada, el motor de inferencia los procesa a través de la estructura computacional del modelo (a menudo una red neuronal). Esto genera un resultado, como la identificación de objetos con cuadros delimitadores en una imagen, la transcripción de un discurso o la clasificación de un sentimiento. Ultralytics YOLO por ejemplo, dependen de motores de inferencia eficientes para lograr la detección y segmentación de objetos en tiempo real en diversas plataformas, desde potentes servidores en la nube hasta dispositivos de borde con recursos limitados. El rendimiento del motor de inferencia afecta directamente a la velocidad y capacidad de respuesta de la aplicación, a menudo medida por la latencia y el rendimiento de la inferencia.
Una función clave de los motores de inferencia modernos es la optimización. Ejecutar directamente un modelo de aprendizaje profundo grande y entrenado puede ser computacionalmente caro y lento. Los motores de inferencia emplean varias técnicas para hacer que los modelos sean más rápidos y eficientes, permitiendo su despliegue en hardware diverso. Las estrategias comunes de optimización de modelos incluyen
Muchos motores de inferencia también admiten formatos de modelo estandarizados como ONNX (Open Neural Network Exchange), que permite modelos entrenados en un marco (como PyTorch) puedan ejecutarse con otro motor o plataforma. Los motores de inferencia más populares son NVIDIA TensorRT OpenVINO deIntel y TensorFlow Lite. Los modelos Ultralytics admiten la exportación a varios formatos compatibles con estos motores, detallados en la guía Opciones de despliegue de modelos.
Es importante distinguir los motores de inferencia de los marcos de entrenamiento.
Los motores de inferencia son fundamentales para desplegar la IA en escenarios prácticos:
En esencia, los motores de inferencia tienden un puente entre los modelos de IA entrenados y su aplicación práctica, garantizando que las sofisticadas capacidades de IA puedan ofrecerse de forma eficiente y eficaz a través de una amplia gama de dispositivos y plataformas, incluida la gestión de modelos a través de plataformas como Ultralytics HUB.