Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra por qué las inferencias en tiempo real en la visión artificial son importantes para una serie de aplicaciones y explore su papel a la hora de permitir la toma de decisiones instantánea.
Todos hemos lidiado con las frustraciones que puede causar una conexión a Internet lenta en algún momento. Sin embargo, imagine ese retraso en una situación de alto riesgo, como un coche autónomo que reacciona ante un obstáculo o un médico que analiza un escáner crítico. Unos pocos segundos adicionales pueden tener graves consecuencias.
Aquí es donde la inferencia de la IA en tiempo real puede marcar la diferencia. El procesamiento rápido y las predicciones en tiempo real permiten a las soluciones de visión artificial procesar y reaccionar a los datos visuales al instante. Estas decisiones en fracciones de segundo pueden aumentar la seguridad, la eficiencia y la comodidad diaria.
Por ejemplo, considera un cirujano que realiza un procedimiento delicado utilizando un asistente robótico. Cada movimiento se controla a través de una conexión de alta velocidad, y el sistema de visión del robot procesa el campo quirúrgico en tiempo real, lo que le da al cirujano retroalimentación visual instantánea. Incluso el más mínimo retraso en este bucle de retroalimentación podría conducir a errores graves, poniendo en riesgo al paciente. Este es un ejemplo perfecto de por qué las inferencias en tiempo real son cruciales; no hay lugar para el retraso.
Las inferencias de la IA en aplicaciones del mundo real dependen de tres conceptos clave: motores de inferencia (el software o hardware que ejecuta eficientemente los modelos de IA), latencia de inferencia (el retraso entre la entrada y la salida) e inferencia en tiempo real (la capacidad del sistema de IA para procesar y reaccionar con un retraso mínimo).
En este artículo, exploraremos estos conceptos básicos y cómo los modelos de visión artificial como Ultralytics YOLO11 permiten aplicaciones que se basan en predicciones instantáneas.
¿Qué es una inferencia de IA?
Realizar una inferencia es el proceso de analizar nuevos datos utilizando un modelo de IA entrenado para hacer una predicción o resolver una tarea. A diferencia del entrenamiento, que implica enseñar a un modelo procesando grandes cantidades de datos etiquetados, la inferencia se centra en producir resultados de forma rápida y precisa utilizando un modelo ya entrenado.
Por ejemplo, en la conservación de la vida silvestre, las trampas de cámaras con IA utilizan modelos de visión artificial para identificar y clasificar animales en tiempo real. Cuando una cámara detecta movimiento, el modelo de IA reconoce instantáneamente si se trata de un ciervo, un depredador o incluso un cazador furtivo, lo que ayuda a los investigadores a rastrear las poblaciones de animales y proteger las especies en peligro de extinción sin intervención humana. Esta rápida identificación hace factible el monitoreo en tiempo real y respuestas más rápidas a posibles amenazas.
Comprender los motores de inferencia
Un modelo de aprendizaje automático entrenado no siempre está listo para ser desplegado en su forma bruta. Un motor de inferencia es una herramienta especializada de software o hardware diseñada para ejecutar eficientemente modelos de aprendizaje automático y optimizarlos para su despliegue en el mundo real. Utiliza técnicas de optimización como la compresión de modelos, la cuantización y las transformaciones de grafos para mejorar el rendimiento y reducir el consumo de recursos, haciendo que el modelo se pueda desplegar en diversos entornos.
En esencia, un motor de inferencia se centra en reducir la sobrecarga computacional, minimizar la latencia y mejorar la eficiencia para permitir predicciones rápidas y precisas. Una vez optimizado, el motor ejecuta el modelo en nuevos datos, lo que le permite generar inferencias en tiempo real de manera eficiente. Esta optimización garantiza que los modelos de IA puedan ejecutarse sin problemas tanto en servidores en la nube de alto rendimiento como en dispositivos perimetrales con recursos limitados, como teléfonos inteligentes, dispositivos IoT y sistemas integrados.
Problemas causados por la latencia de inferencia
La latencia de inferencia es el retraso entre el momento en que un sistema de IA recibe datos de entrada (como una imagen de una cámara) y el momento en que produce una salida (como la detección de objetos en la imagen). Incluso un pequeño retraso puede afectar significativamente el rendimiento y la usabilidad de las aplicaciones de IA en tiempo real.
La latencia de inferencia se produce en tres etapas clave:
Tiempo de preprocesamiento: El tiempo necesario para preparar los datos de entrada antes de que se introduzcan en el modelo. Esto incluye el cambio de tamaño de las imágenes para que coincidan con las dimensiones de entrada del modelo, la normalización de los valores de los píxeles para una mejor precisión y la conversión de formatos (por ejemplo, de RGB a escala de grises o de vídeo a secuencias de fotogramas).
Tiempo de computación: El tiempo real que tarda el modelo en realizar la inferencia. Esto implica operaciones como cálculos por capas en redes profundas, multiplicaciones de matrices, convoluciones y transferencia de datos entre la memoria y las unidades de procesamiento.
Tiempo de post-procesamiento: El tiempo necesario para convertir las salidas del modelo en bruto en resultados significativos. Esto puede incluir el dibujo de cuadros delimitadores en la detección de objetos, el filtrado de falsos positivos en el reconocimiento de imágenes o la aplicación de umbrales en la detección de anomalías.
La latencia de inferencia es fundamental en aplicaciones en tiempo real. Por ejemplo, en la detección automatizada de defectos en una línea de ensamblaje, la visión artificial se puede utilizar para inspeccionar los productos a medida que avanzan por la cinta transportadora.
El sistema debe identificar y señalar rápidamente los defectos antes de que los productos pasen a la siguiente etapa. Si el modelo tarda demasiado en procesar las imágenes, es posible que los artículos defectuosos no se detecten a tiempo, lo que provocaría el desperdicio de materiales, costosas rectificaciones o la llegada de productos defectuosos a los clientes. Al reducir la latencia, los fabricantes pueden mejorar el control de calidad, aumentar la eficiencia y reducir las pérdidas.
¿Cómo reducir la latencia de inferencia?
Mantener la latencia de inferencia al mínimo es esencial en muchas aplicaciones de visión artificial. Se pueden utilizar varias técnicas para lograrlo. Analicemos algunas de las técnicas más comunes utilizadas para reducir la latencia de inferencia.
Poda de modelos
La poda de modelos simplifica una red neuronal eliminando conexiones innecesarias (pesos), haciéndola más pequeña y rápida. Este proceso reduce la carga computacional del modelo, mejorando la velocidad sin afectar demasiado la precisión.
Al mantener solo las conexiones más importantes, la poda garantiza una inferencia eficiente y un mejor rendimiento, especialmente en dispositivos con potencia de procesamiento limitada. Se utiliza ampliamente en aplicaciones en tiempo real como la IA móvil, la robótica y la computación perimetral para mejorar la eficiencia manteniendo la confiabilidad.
Fig 2. Eliminación de conexiones menos efectivas mediante el pruning de modelos.
Cuantización de modelos
La cuantificación de modelos es una técnica que hace que los modelos de IA se ejecuten más rápido y utilicen menos memoria al simplificar los números que utilizan para los cálculos. Normalmente, estos modelos funcionan con números de coma flotante de 32 bits, que son muy precisos pero requieren mucha potencia de procesamiento. La cuantificación reduce estos números a enteros de 8 bits, que son más fáciles de procesar y ocupan menos espacio.
Fig 3. Uso de la cuantización de modelos para convertir valores de coma flotante en representaciones enteras.
Usando modelos eficientes
El diseño de un modelo de IA tiene un gran impacto en la rapidez con la que puede hacer predicciones. Los modelos como YOLO11, que están construidos para una inferencia eficiente, son ideales para aplicaciones donde la velocidad de procesamiento es crítica.
Al desarrollar una solución de IA, es importante elegir el modelo adecuado según los recursos disponibles y las necesidades de rendimiento. Si empiezas con un modelo demasiado pesado, es más probable que te encuentres con problemas como tiempos de procesamiento lentos, mayor consumo de energía y dificultad para implementarlo en dispositivos con recursos limitados. Un modelo ligero garantiza un rendimiento fluido, especialmente para aplicaciones en tiempo real y en el borde.
Velocidad vs. precisión: optimización de las inferencias en tiempo real
Si bien existen varias técnicas para reducir la latencia, una parte clave de las inferencias en tiempo real es equilibrar la velocidad y la precisión. No basta con que los modelos sean más rápidos: es necesario optimizar la velocidad de inferencia sin comprometer la precisión. Un sistema que produce predicciones rápidas pero incorrectas es ineficaz. Por eso, es fundamental realizar pruebas exhaustivas para asegurarse de que los modelos funcionan bien en situaciones reales. Un sistema que parece rápido durante las pruebas, pero que falla en condiciones reales, no está realmente optimizado.
Aplicaciones de IA de visión que aprovechan las inferencias en tiempo real
A continuación, veamos algunas aplicaciones del mundo real en las que la inferencia en tiempo real está transformando industrias al permitir respuestas instantáneas a la entrada visual.
Sistemas de autopago en tiendas minoristas
Los modelos de visión artificial como YOLO11 pueden ayudar a mejorar los sistemas de autopago haciendo que el reconocimiento de artículos sea más rápido y preciso. La compatibilidad de YOLO11 con diversas tareas de visión artificial, como la detección de objetos y la segmentación de instancias, permite identificar los productos incluso si faltan o están dañados los códigos de barras. La visión artificial puede reducir la necesidad de introducir datos manualmente y acelerar el proceso de pago.
Más allá de la identificación de productos, la visión artificial también se puede integrar en los sistemas de autopago para verificar los precios, prevenir el fraude y mejorar la comodidad del cliente. Las cámaras impulsadas por IA pueden distinguir automáticamente entre productos similares y detectar comportamientos sospechosos en la caja. Esto incluye la identificación de "no escaneos", donde un cliente o cajero omite involuntariamente un artículo, y los intentos de fraude más deliberados, como el "cambio de producto", donde se coloca un código de barras más barato sobre un artículo más caro.
Fig 4. La IA puede mejorar los mostradores de autopago.
Un gran ejemplo de esto es Kroger, un importante minorista estadounidense, que ha integrado la visión artificial y la IA en sus sistemas de autopago. Mediante el análisis de vídeo en tiempo real, Kroger ha podido corregir automáticamente más del 75% de los errores de pago, mejorando tanto la experiencia del cliente como las operaciones de la tienda.
Inspección de calidad mediante visión artificial
Inspeccionar manualmente los productos para el control de calidad puede ser lento y no siempre preciso. Por eso, cada vez más fabricantes están cambiando a flujos de trabajo de inspección visual que utilizan la visión artificial para detectar los defectos en las primeras fases del proceso de producción.
Las cámaras de alta resolución y la IA de visión pueden detectar pequeños defectos que los humanos podrían pasar por alto, y modelos como YOLO11 pueden ayudar con los controles de calidad en tiempo real, la clasificación y el conteo para garantizar que solo los productos perfectos lleguen a los clientes. La automatización de este proceso ahorra tiempo, reduce costes y disminuye el desperdicio, lo que hace que la producción sea más fluida y eficiente.
Fig 5. Un ejemplo del uso de YOLO11 para contar productos en una línea de montaje.
Conclusiones clave
La inferencia en tiempo real ayuda a los modelos de IA a tomar decisiones instantáneas, lo cual es crucial en muchas industrias. Ya sea un coche autónomo que evita un accidente, un médico que analiza rápidamente escáneres médicos o una fábrica que detecta defectos en los productos, las respuestas rápidas y precisas de la IA marcan una gran diferencia.
Al mejorar la velocidad y la eficiencia de los modelos de IA, podemos crear sistemas más inteligentes y fiables que funcionen a la perfección en situaciones del mundo real. A medida que la tecnología avanza, las soluciones de IA en tiempo real seguirán configurando el futuro, haciendo que los procesos cotidianos sean más rápidos, seguros y eficientes.