Inferencia de IA de visión en tiempo real: Velocidad y aplicaciones

Todos hemos lidiado con las frustraciones que puede causar una conexión a Internet lenta en algún momento. Sin embargo, imagine ese retraso en una situación de alto riesgo, como un coche autónomo que reacciona ante un obstáculo o un médico que analiza un escáner crítico. Unos pocos segundos adicionales pueden tener graves consecuencias.

Aquí es donde la inferencia de la IA en tiempo real puede marcar la diferencia. El procesamiento rápido y las predicciones en tiempo real permiten a las soluciones de visión artificial procesar y reaccionar a los datos visuales al instante. Estas decisiones en fracciones de segundo pueden aumentar la seguridad, la eficiencia y la comodidad diaria.

Por ejemplo, considera un cirujano que realiza un procedimiento delicado utilizando un asistente robótico. Cada movimiento se controla a través de una conexión de alta velocidad, y el sistema de visión del robot procesa el campo quirúrgico en tiempo real, lo que le da al cirujano retroalimentación visual instantánea. Incluso el más mínimo retraso en este bucle de retroalimentación podría conducir a errores graves, poniendo en riesgo al paciente. Este es un ejemplo perfecto de por qué las inferencias en tiempo real son cruciales; no hay lugar para el retraso.

Las inferencias de la IA en aplicaciones del mundo real dependen de tres conceptos clave: motores de inferencia (el software o hardware que ejecuta eficientemente los modelos de IA), latencia de inferencia (el retraso entre la entrada y la salida) e inferencia en tiempo real (la capacidad del sistema de IA para procesar y reaccionar con un retraso mínimo).

En este artículo, exploraremos estos conceptos básicos y cómo los modelos de visión por ordenador como Ultralytics YOLO11 permiten aplicaciones que dependen de predicciones instantáneas.

¿Qué es una inferencia de IA?

Realizar una inferencia es el proceso de analizar nuevos datos utilizando un modelo de IA entrenado para hacer una predicción o resolver una tarea. A diferencia del entrenamiento, que implica enseñar a un modelo procesando grandes cantidades de datos etiquetados, la inferencia se centra en producir resultados de forma rápida y precisa utilizando un modelo ya entrenado.

__wf_reserved_inherit — Fig. 1. Entendiendo qué son las inferencias.

‍

Por ejemplo, en la conservación de la vida salvaje, las cámaras trampa con IA utilizan modelos de visión por ordenador para identificar y classify animales en tiempo real. Cuando una cámara detecta un movimiento, el modelo de IA reconoce al instante si se trata de un ciervo, un depredador o incluso un cazador furtivo, lo que ayuda a los investigadores a track las poblaciones de animales y proteger las especies amenazadas sin intervención humana. Esta rápida identificación hace posible la vigilancia en tiempo real y respuestas más rápidas a posibles amenazas.

Comprender los motores de inferencia

Un modelo de aprendizaje automático entrenado no siempre está listo para ser desplegado en su forma bruta. Un motor de inferencia es una herramienta especializada de software o hardware diseñada para ejecutar eficientemente modelos de aprendizaje automático y optimizarlos para su despliegue en el mundo real. Utiliza técnicas de optimización como la compresión de modelos, la cuantización y las transformaciones de grafos para mejorar el rendimiento y reducir el consumo de recursos, haciendo que el modelo se pueda desplegar en diversos entornos.

En esencia, un motor de inferencia se centra en reducir la sobrecarga computacional, minimizar la latencia y mejorar la eficiencia para permitir predicciones rápidas y precisas. Una vez optimizado, el motor ejecuta el modelo en nuevos datos, lo que le permite generar inferencias en tiempo real de manera eficiente. Esta optimización garantiza que los modelos de IA puedan ejecutarse sin problemas tanto en servidores en la nube de alto rendimiento como en dispositivos perimetrales con recursos limitados, como teléfonos inteligentes, dispositivos IoT y sistemas integrados.

Problemas causados por la latencia de inferencia

La latencia de inferencia es el retraso entre el momento en que un sistema de IA recibe datos de entrada (como una imagen de una cámara) y el momento en que produce una salida (como la detección de objetos en la imagen). Incluso un pequeño retraso puede afectar significativamente el rendimiento y la usabilidad de las aplicaciones de IA en tiempo real.

La latencia de inferencia se produce en tres etapas clave:

Tiempo de preprocesamiento: El tiempo necesario para preparar los datos de entrada antes de que se introduzcan en el modelo. Esto incluye el cambio de tamaño de las imágenes para que coincidan con las dimensiones de entrada del modelo, la normalización de los valores de los píxeles para una mejor precisión y la conversión de formatos (por ejemplo, de RGB a escala de grises o de vídeo a secuencias de fotogramas).
‍
Tiempo de computación: El tiempo real que tarda el modelo en realizar la inferencia. Esto implica operaciones como cálculos por capas en redes profundas, multiplicaciones de matrices, convoluciones y transferencia de datos entre la memoria y las unidades de procesamiento.
‍
Tiempo de post-procesamiento: El tiempo necesario para convertir las salidas del modelo en bruto en resultados significativos. Esto puede incluir el dibujo de cuadros delimitadores en la detección de objetos, el filtrado de falsos positivos en el reconocimiento de imágenes o la aplicación de umbrales en la detección de anomalías.

La latencia de inferencia es fundamental en aplicaciones en tiempo real. Por ejemplo, en la detección automatizada de defectos en una línea de ensamblaje, la visión artificial se puede utilizar para inspeccionar los productos a medida que avanzan por la cinta transportadora.

El sistema debe identificar y señalar rápidamente los defectos antes de que los productos pasen a la siguiente etapa. Si el modelo tarda demasiado en procesar las imágenes, es posible que los artículos defectuosos no se detecten a tiempo, lo que provocaría el desperdicio de materiales, costosas rectificaciones o la llegada de productos defectuosos a los clientes. Al reducir la latencia, los fabricantes pueden mejorar el control de calidad, aumentar la eficiencia y reducir las pérdidas.

¿Cómo reducir la latencia de inferencia?

Mantener la latencia de inferencia al mínimo es esencial en muchas aplicaciones de visión artificial. Se pueden utilizar varias técnicas para lograrlo. Analicemos algunas de las técnicas más comunes utilizadas para reducir la latencia de inferencia.

Poda de modelos

La poda de modelos simplifica una red neuronal eliminando conexiones innecesarias (pesos), haciéndola más pequeña y rápida. Este proceso reduce la carga computacional del modelo, mejorando la velocidad sin afectar demasiado la precisión.

Al mantener solo las conexiones más importantes, la poda garantiza una inferencia eficiente y un mejor rendimiento, especialmente en dispositivos con potencia de procesamiento limitada. Se utiliza ampliamente en aplicaciones en tiempo real como la IA móvil, la robótica y la computación perimetral para mejorar la eficiencia manteniendo la confiabilidad.

‍

Cuantización de modelos

La cuantificación de modelos es una técnica que hace que los modelos de IA se ejecuten más rápido y utilicen menos memoria al simplificar los números que utilizan para los cálculos. Normalmente, estos modelos funcionan con números de coma flotante de 32 bits, que son muy precisos pero requieren mucha potencia de procesamiento. La cuantificación reduce estos números a enteros de 8 bits, que son más fáciles de procesar y ocupan menos espacio.

‍

Usando modelos eficientes

El diseño de un modelo de IA influye mucho en la rapidez con la que puede hacer predicciones. Los modelos como YOLO11, creados para una inferencia eficiente, son ideales para aplicaciones en las que la velocidad de procesamiento es fundamental.

Al desarrollar una solución de IA, es importante elegir el modelo adecuado según los recursos disponibles y las necesidades de rendimiento. Si empiezas con un modelo demasiado pesado, es más probable que te encuentres con problemas como tiempos de procesamiento lentos, mayor consumo de energía y dificultad para implementarlo en dispositivos con recursos limitados. Un modelo ligero garantiza un rendimiento fluido, especialmente para aplicaciones en tiempo real y en el borde.

Velocidad vs. precisión: optimización de las inferencias en tiempo real

Si bien existen varias técnicas para reducir la latencia, una parte clave de las inferencias en tiempo real es equilibrar la velocidad y la precisión. No basta con que los modelos sean más rápidos: es necesario optimizar la velocidad de inferencia sin comprometer la precisión. Un sistema que produce predicciones rápidas pero incorrectas es ineficaz. Por eso, es fundamental realizar pruebas exhaustivas para asegurarse de que los modelos funcionan bien en situaciones reales. Un sistema que parece rápido durante las pruebas, pero que falla en condiciones reales, no está realmente optimizado.

Aplicaciones de IA de visión que aprovechan las inferencias en tiempo real

A continuación, veamos algunas aplicaciones del mundo real en las que la inferencia en tiempo real está transformando industrias al permitir respuestas instantáneas a la entrada visual.

Sistemas de autopago en tiendas minoristas

Los modelos de visión por ordenador como YOLO11 pueden ayudar a mejorar los sistemas de autopago haciendo que el reconocimiento de artículos sea más rápido y preciso. La compatibilidad de YOLO11 con diversas tareas de visión por ordenador, como la detección de objetos y la segmentación de instancias, permite identificar productos aunque falten códigos de barras o estén dañados. Vision AI puede reducir la necesidad de introducir datos manualmente y acelerar el proceso de pago.

Más allá de la identificación de productos, la visión por ordenador también puede integrarse en los sistemas de autopago para verificar precios, evitar fraudes y mejorar la comodidad del cliente. Las cámaras con IA pueden distinguir automáticamente entre productos similares y detect comportamientos sospechosos en la caja. Esto incluye la identificación de "no escaneos", cuando un cliente o un cajero pasan por alto involuntariamente un artículo, y de intentos de fraude más deliberados, como el "cambio de producto", en el que se coloca un código de barras más barato sobre un artículo más caro.

‍

Un gran ejemplo de esto es Kroger, un importante minorista estadounidense, que ha integrado la visión artificial y la IA en sus sistemas de autopago. Mediante el análisis de vídeo en tiempo real, Kroger ha podido corregir automáticamente más del 75% de los errores de pago, mejorando tanto la experiencia del cliente como las operaciones de la tienda.

Inspección de calidad mediante visión artificial

Inspeccionar manualmente los productos para el control de calidad puede ser lento y no siempre preciso. Por eso, cada vez más fabricantes están cambiando a flujos de trabajo de inspección visual que utilizan la visión artificial para detectar los defectos en las primeras fases del proceso de producción.

Las cámaras de alta resolución y Vision AI pueden detectar pequeños defectos que los humanos pasarían por alto, y modelos como YOLO11 pueden ayudar con los controles de calidad en tiempo real, la clasificación y el recuento para garantizar que solo los productos perfectos lleguen a los clientes. La automatización de este proceso ahorra tiempo, reduce costes y disminuye los residuos, lo que hace que la producción sea más fluida y eficiente.

‍

Conclusiones clave

La inferencia en tiempo real ayuda a los modelos de IA a tomar decisiones instantáneas, lo cual es crucial en muchas industrias. Ya sea un coche autónomo que evita un accidente, un médico que analiza rápidamente escáneres médicos o una fábrica que detecta defectos en los productos, las respuestas rápidas y precisas de la IA marcan una gran diferencia.

Al mejorar la velocidad y la eficiencia de los modelos de IA, podemos crear sistemas más inteligentes y fiables que funcionen a la perfección en situaciones del mundo real. A medida que la tecnología avanza, las soluciones de IA en tiempo real seguirán configurando el futuro, haciendo que los procesos cotidianos sean más rápidos, seguros y eficientes.

Para obtener más información, visite nuestro repositorio de GitHub e interactúe con nuestra comunidad. Explore las innovaciones en sectores como la IA en coches autónomos y la visión artificial en la agricultura en nuestras páginas de soluciones. Consulte nuestras opciones de licencia y haga realidad sus proyectos de Vision AI.

Las inferencias en tiempo real en las soluciones de Vision AI están teniendo un impacto

¿Qué es una inferencia de IA?

Comprender los motores de inferencia

Problemas causados por la latencia de inferencia