Glosario

Motor de inferencia

Descubre cómo los motores de inferencia potencian la IA proporcionando predicciones en tiempo real, optimizando modelos y permitiendo el despliegue multiplataforma.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En el ámbito de la inteligencia artificial (IA) y el aprendizaje automático (AM), un motor de inferencia es un componente crucial de software o hardware responsable de ejecutar modelos entrenados para hacer predicciones sobre datos nuevos y no vistos. Después de que un modelo haya aprendido patrones durante la fase de entrenamiento, el motor de inferencia toma este modelo entrenado y lo aplica a entradas del mundo real. Este proceso, conocido como inferencia, permite a los sistemas de IA realizar tareas como la detección de objetos, la clasificación de imágenes o el procesamiento del lenguaje natural (PLN ) en aplicaciones prácticas. Es esencialmente el corazón operativo de un modelo de IA desplegado, que traduce el conocimiento aprendido en resultados procesables de forma eficiente.

Cómo funcionan los motores de inferencia

Un motor de inferencia utiliza un modelo preentrenado, a menudo desarrollado utilizando marcos de aprendizaje profundo (deep learning, DL) como PyTorch o TensorFlowque encapsula el conocimiento necesario para una tarea específica. Cuando se proporcionan nuevos datos (por ejemplo, una imagen, un clip de audio o una frase de texto) como entrada, el motor de inferencia los procesa a través de la estructura computacional del modelo (a menudo una red neuronal). Esto genera un resultado, como la identificación de objetos con cuadros delimitadores en una imagen, la transcripción de un discurso o la clasificación de un sentimiento. Ultralytics YOLO por ejemplo, dependen de motores de inferencia eficientes para lograr la detección y segmentación de objetos en tiempo real en diversas plataformas, desde potentes servidores en la nube hasta dispositivos de borde con recursos limitados. El rendimiento del motor de inferencia afecta directamente a la velocidad y capacidad de respuesta de la aplicación, a menudo medida por la latencia y el rendimiento de la inferencia.

Optimizaciones y características clave

Una función clave de los motores de inferencia modernos es la optimización. Ejecutar directamente un modelo de aprendizaje profundo grande y entrenado puede ser computacionalmente caro y lento. Los motores de inferencia emplean varias técnicas para hacer que los modelos sean más rápidos y eficientes, permitiendo su despliegue en hardware diverso. Las estrategias comunes de optimización de modelos incluyen

  • Cuantización del modelo: Reducción de la precisión de los pesos del modelo (por ejemplo, de coma flotante de 32 bits a enteros de 8 bits) para disminuir el tamaño del modelo y acelerar el cálculo, a menudo con un impacto mínimo en la precisión.
  • Poda del modelo: Eliminar conexiones (pesos) redundantes o sin importancia dentro de la red neuronal para crear un modelo más pequeño y rápido.
  • Optimización del gráfico: Fusionar capas o reordenar operaciones en el grafo computacional del modelo para mejorar la eficacia de ejecución en hardware específico.
  • Aceleración por hardware: Aprovechando procesadores especializados como GPUs, TPUs o aceleradores de IA dedicados que se encuentran en dispositivos como Google Edge TPU o NVIDIA Jetson.

Muchos motores de inferencia también admiten formatos de modelo estandarizados como ONNX (Open Neural Network Exchange), que permite modelos entrenados en un marco (como PyTorch) puedan ejecutarse con otro motor o plataforma. Los motores de inferencia más populares son NVIDIA TensorRT OpenVINO deIntel y TensorFlow Lite. Los modelos Ultralytics admiten la exportación a varios formatos compatibles con estos motores, detallados en la guía Opciones de despliegue de modelos.

Motor de inferencia vs. Marco de entrenamiento

Es importante distinguir los motores de inferencia de los marcos de entrenamiento.

  • Marcos de formación (p.ej, PyTorch, TensorFlowKeras): Son bibliotecas completas que se utilizan para construir, entrenar y validar modelos de aprendizaje automático. Proporcionan herramientas para definir arquitecturas de red, implementar la retropropagación, gestionar conjuntos de datos y calcular funciones de pérdida. Se centran en la flexibilidad y el proceso de aprendizaje.
  • Motores de inferencia (p. ej, TensorRT, OpenVINOONNX Runtime): Son herramientas especializadas diseñadas para ejecutar eficientemente modelos preentrenados para tareas de predicción(despliegue de modelos). Se centran principalmente en optimizar la velocidad(baja latencia), el uso de poca memoria y la compatibilidad con el hardware de destino. A menudo toman modelos entrenados mediante marcos de trabajo y los convierten a un formato optimizado.

Aplicaciones en el mundo real

Los motores de inferencia son fundamentales para desplegar la IA en escenarios prácticos:

  1. Vehículos autónomos: Los coches autónomos(como los desarrollados por Waymo) dependen en gran medida de motores de inferencia eficientes que se ejecutan en hardware integrado(como las plataformas NVIDIA Jetson) para procesar los datos de los sensores (cámaras, LiDAR) en tiempo real. Los motores optimizan modelos complejos de visión por ordenador como YOLO para tareas como la detección de objetos (detectar coches, peatones, señales) y la segmentación semántica (comprender el trazado de la carretera) con un retraso mínimo, lo que es crucial para la seguridad. Más información sobre la IA en las soluciones de automoción.
  2. Análisis de imágenes médicas: Los motores de inferencia aceleran el análisis de exploraciones médicas (radiografías, TAC, IRM) para tareas como la detección de tumores(consulta el conjunto de datos sobre tumores cerebrales) o anomalías. Los modelos optimizados desplegados mediante motores de inferencia pueden ejecutarse rápidamente en los servidores de los hospitales o en dispositivos médicos especializados, ayudando a los radiólogos(lee sobre IA en Radiología) proporcionando diagnósticos más rápidos o segundas opiniones. Consulta las soluciones de IA en sanidad.

En esencia, los motores de inferencia tienden un puente entre los modelos de IA entrenados y su aplicación práctica, garantizando que las sofisticadas capacidades de IA puedan ofrecerse de forma eficiente y eficaz a través de una amplia gama de dispositivos y plataformas, incluida la gestión de modelos a través de plataformas como Ultralytics HUB.

Leer todo