Las inferencias en tiempo real de las soluciones Vision AI están causando impacto

Abirami Vina

4 min leer

20 de febrero de 2025

Descubra por qué las inferencias en tiempo real en visión por ordenador son importantes para una serie de aplicaciones y explore su papel a la hora de permitir la toma de decisiones instantánea.

Todos nos hemos enfrentado alguna vez a las frustraciones que puede causar una conexión lenta a Internet. Sin embargo, imagina ese retraso en una situación de alto riesgo, como un coche autoconducido reaccionando ante un obstáculo o un médico analizando una exploración crítica. Unos segundos de más pueden tener graves consecuencias. 

Aquí es donde la inferencia de IA en tiempo real puede marcar la diferencia. El procesamiento rápido y las predicciones en tiempo real permiten a las soluciones de visión por ordenador procesar los datos visuales y reaccionar ante ellos al instante. Estas decisiones en fracciones de segundo pueden aumentar la seguridad, la eficiencia y la comodidad cotidiana. 

Pensemos, por ejemplo, en un cirujano que realiza una intervención delicada con un asistente robótico. Cada movimiento se controla a través de una conexión de alta velocidad, y el sistema de visión del robot procesa el campo quirúrgico en tiempo real, proporcionando al cirujano información visual instantánea. El más mínimo retraso en este bucle de retroalimentación podría dar lugar a graves errores, poniendo en peligro al paciente. Este es un ejemplo perfecto de por qué las inferencias en tiempo real son cruciales; no hay lugar para retrasos. 

Las inferencias de IA en aplicaciones del mundo real dependen de tres conceptos clave: los motores de inferencia (el software o hardware que ejecuta eficientemente los modelos de IA), la latencia de la inferencia (el retraso entre la entrada y la salida) y la inferencia en tiempo real (la capacidad del sistema de IA para procesar y reaccionar con un retraso mínimo).

En este artículo, exploraremos estos conceptos básicos y cómo los modelos de visión por ordenador como Ultralytics YOLO11 permiten aplicaciones que dependen de predicciones instantáneas.

¿Qué es una inferencia de IA?

Ejecutar una inferencia es el proceso de analizar nuevos datos utilizando un modelo de IA entrenado para hacer una predicción o resolver una tarea. A diferencia del entrenamiento, que consiste en enseñar un modelo procesando grandes cantidades de datos etiquetados, la inferencia se centra en producir resultados de forma rápida y precisa utilizando un modelo ya entrenado.

__wf_reserved_inherit
Fig. 1. Entender qué son las inferencias.

Por ejemplo, en la conservación de la vida salvaje, las cámaras trampa con IA utilizan modelos de visión por ordenador para identificar y clasificar animales en tiempo real. Cuando una cámara detecta un movimiento, el modelo de IA reconoce al instante si se trata de un ciervo, un depredador o incluso un cazador furtivo, lo que ayuda a los investigadores a rastrear las poblaciones de animales y proteger las especies amenazadas sin intervención humana. Esta rápida identificación hace posible la vigilancia en tiempo real y respuestas más rápidas a posibles amenazas.

Entender los motores de inferencia

Un modelo de aprendizaje automático entrenado no siempre está listo para su despliegue en bruto. Un motor de inferencia es una herramienta especializada de software o hardware diseñada para ejecutar eficazmente modelos de aprendizaje automático y optimizarlos para su despliegue en el mundo real. Utiliza técnicas de optimización como la compresión de modelos, la cuantización y las transformaciones de gráficos para mejorar el rendimiento y reducir el consumo de recursos, lo que permite desplegar el modelo en distintos entornos. 

En esencia, un motor de inferencia se centra en reducir la sobrecarga computacional, minimizar la latencia y mejorar la eficiencia para permitir predicciones rápidas y precisas. Una vez optimizado, el motor ejecuta el modelo sobre nuevos datos, lo que le permite generar inferencias en tiempo real de manera eficiente. Esta optimización garantiza que los modelos de IA puedan funcionar sin problemas tanto en servidores en la nube de alto rendimiento como en dispositivos periféricos con recursos limitados, como smartphones, dispositivos IoT y sistemas integrados.

Problemas causados por la latencia de la inferencia

La latencia de inferencia es el tiempo que transcurre entre que un sistema de IA recibe datos de entrada (como una imagen de una cámara) y produce un resultado (como la detección de objetos en la imagen). Incluso un pequeño retraso puede afectar significativamente al rendimiento y la utilidad de las aplicaciones de IA en tiempo real.

La latencia de la inferencia se produce en tres etapas clave:

  • Tiempo de preprocesamiento: El tiempo necesario para preparar los datos de entrada antes de introducirlos en el modelo. Esto incluye cambiar el tamaño de las imágenes para que coincidan con las dimensiones de entrada del modelo, normalizar los valores de los píxeles para una mayor precisión y convertir formatos (por ejemplo, RGB a escala de grises o vídeo a secuencias de fotogramas).
  • Tiempo de cálculo: El tiempo real que tarda el modelo en realizar la inferencia. Esto implica operaciones como cálculos por capas en redes profundas, multiplicaciones de matrices, convoluciones y transferencia de datos entre unidades de memoria y procesamiento.
  • Tiempo de postprocesamiento: El tiempo necesario para convertir los resultados brutos del modelo en resultados significativos. Puede incluir el trazado de cuadros delimitadores en la detección de objetos, el filtrado de falsos positivos en el reconocimiento de imágenes o la aplicación de umbrales en la detección de anomalías.

La latencia de la inferencia es crítica en las aplicaciones en tiempo real. Por ejemplo, en la detección automática de defectos en una cadena de montaje, la visión por ordenador puede utilizarse para inspeccionar los productos a medida que se desplazan por la cinta transportadora. 

El sistema debe identificar y marcar rápidamente los defectos antes de que los productos pasen a la siguiente fase. Si el modelo tarda demasiado en procesar las imágenes, es posible que los artículos defectuosos no se detecten a tiempo, con el consiguiente desperdicio de materiales, costosas repeticiones de trabajos o productos defectuosos que llegan a los clientes. Al reducir la latencia, los fabricantes pueden mejorar el control de calidad, aumentar la eficacia y reducir las pérdidas.

Cómo reducir la latencia de la inferencia

Mantener al mínimo la latencia de la inferencia es esencial en muchas aplicaciones de visión por ordenador. Para conseguirlo, se pueden utilizar varias técnicas. Veamos algunas de las técnicas más comunes para reducir la latencia de la inferencia.

Poda de modelos

La poda de modelos simplifica una red neuronal eliminando las conexiones (pesos) innecesarias, lo que la hace más pequeña y rápida. Este proceso reduce la carga computacional del modelo, mejorando la velocidad sin afectar demasiado a la precisión. 

Al mantener sólo las conexiones más importantes, la poda garantiza una inferencia eficiente y un mejor rendimiento, especialmente en dispositivos con una potencia de procesamiento limitada. Se utiliza ampliamente en aplicaciones en tiempo real como la IA móvil, la robótica y la computación de borde para mejorar la eficiencia manteniendo la fiabilidad.

__wf_reserved_inherit
Fig. 2. Eliminación de las conexiones menos eficaces mediante la poda de modelos.

Cuantificación de modelos

La cuantización de modelos es una técnica que hace que los modelos de IA funcionen más rápido y utilicen menos memoria simplificando los números que utilizan para los cálculos. Normalmente, estos modelos trabajan con números en coma flotante de 32 bits, que son muy precisos pero requieren mucha capacidad de procesamiento. La cuantización reduce estos números a enteros de 8 bits, que son más fáciles de procesar y ocupan menos espacio. 

__wf_reserved_inherit
Fig. 3. Utilización de la cuantificación de modelos para convertir valores de coma flotante en representaciones enteras.

Utilizar modelos eficientes

El diseño de un modelo de IA influye mucho en la rapidez con la que puede hacer predicciones. Los modelos como YOLO11, concebidos para una inferencia eficiente, son ideales para aplicaciones en las que la velocidad de procesamiento es fundamental.

A la hora de crear una solución de IA, es importante elegir el modelo adecuado en función de los recursos disponibles y las necesidades de rendimiento. Si comienza con un modelo demasiado pesado, es más probable que se encuentre con problemas como tiempos de procesamiento lentos, mayor consumo de energía y dificultades para implementarlo en dispositivos con recursos limitados. Un modelo ligero garantiza un rendimiento fluido, especialmente para aplicaciones en tiempo real y de borde.

Velocidad frente a precisión: optimización de las inferencias en tiempo real

Aunque existen varias técnicas para reducir la latencia, una parte clave de las inferencias en tiempo real es equilibrar velocidad y precisión. No basta con acelerar los modelos: hay que optimizar la velocidad de inferencia sin comprometer la precisión. Un sistema que produce predicciones rápidas pero incorrectas es ineficaz. Por eso es vital realizar pruebas exhaustivas para asegurarse de que los modelos funcionan bien en situaciones reales. Un sistema que parece rápido durante las pruebas pero falla en condiciones reales no está realmente optimizado.

Aplicaciones de IA de visión que aprovechan las inferencias en tiempo real

A continuación, vamos a ver algunas aplicaciones reales en las que la inferencia en tiempo real está transformando las industrias al permitir respuestas instantáneas a la información visual.

Sistemas de autofacturación en comercios

Los modelos de visión por ordenador como YOLO11 pueden ayudar a mejorar los sistemas de autopago haciendo que el reconocimiento de artículos sea más rápido y preciso. La compatibilidad de YOLO11 con diversas tareas de visión por ordenador, como la detección de objetos y la segmentación de instancias, permite identificar productos aunque falten códigos de barras o estén dañados. Vision AI puede reducir la necesidad de introducir datos manualmente y acelerar el proceso de pago.

Más allá de la identificación de productos, la visión por ordenador también puede integrarse en los sistemas de autopago para verificar precios, evitar fraudes y mejorar la comodidad del cliente. Las cámaras con IA pueden distinguir automáticamente entre productos similares y detectar comportamientos sospechosos en la caja. Esto incluye la identificación de "no escaneos", cuando un cliente o un cajero pasan por alto involuntariamente un artículo, y de intentos de fraude más deliberados, como el "cambio de producto", en el que se coloca un código de barras más barato sobre un artículo más caro.

__wf_reserved_inherit
Fig. 4. La IA puede mejorar los mostradores de autofacturación.

Un buen ejemplo de ello es Kroger, uno de los principales minoristas de Estados Unidos, que ha integrado la visión por ordenador y la IA en sus sistemas de autopago. Gracias al análisis de vídeo en tiempo real, Kroger ha podido corregir automáticamente más del 75 % de los errores de caja, mejorando tanto la experiencia del cliente como las operaciones de la tienda.

Inspección de calidad mediante visión por ordenador

La inspección manual de productos para el control de calidad puede ser lenta y no siempre precisa. Por eso, cada vez más fabricantes están cambiando a flujos de trabajo de inspección visual que utilizan la visión por ordenador para detectar defectos en fases más tempranas del proceso de producción.

Las cámaras de alta resolución y Vision AI pueden detectar pequeños defectos que los humanos pasarían por alto, y modelos como YOLO11 pueden ayudar con los controles de calidad en tiempo real, la clasificación y el recuento para garantizar que solo los productos perfectos lleguen a los clientes. La automatización de este proceso ahorra tiempo, reduce costes y disminuye los residuos, lo que hace que la producción sea más fluida y eficiente.

__wf_reserved_inherit
Fig. 5. Ejemplo de uso de YOLO11 para contar productos en una cadena de montaje.

Principales conclusiones

La inferencia en tiempo real ayuda a los modelos de IA a tomar decisiones instantáneas, lo que es crucial en muchos sectores. Ya se trate de un coche autoconducido que evita un accidente, un médico que analiza rápidamente exploraciones médicas o una fábrica que detecta defectos en los productos, las respuestas rápidas y precisas de la IA marcan una gran diferencia.

Al mejorar la velocidad y la eficiencia de los modelos de IA, podemos crear sistemas más inteligentes y fiables que funcionen a la perfección en situaciones del mundo real. A medida que avance la tecnología, las soluciones de IA en tiempo real seguirán dando forma al futuro, haciendo que los procesos cotidianos sean más rápidos, seguros y eficientes.

Para obtener más información, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explore las innovaciones en sectores como la IA en los coches autónomos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Consulte nuestras opciones de licencia y dé vida a sus proyectos de Vision AI.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles