Descubra por qué son importantes los FPS en la visión por ordenador y cómo afectan a la detección de objetos en tiempo real, el análisis de vídeo y las aplicaciones basadas en IA.

Descubra por qué son importantes los FPS en la visión por ordenador y cómo afectan a la detección de objetos en tiempo real, el análisis de vídeo y las aplicaciones basadas en IA.
Ver una repetición a cámara lenta de su momento deportivo favorito, en la que cada detalle es nítido, es muy diferente de ver una grabación de vigilancia que suele parecer entrecortada y difícil de seguir. El detalle técnico clave detrás de estas diferencias es el FPS, o fotogramas por segundo, que se refiere al número de fotogramas mostrados por segundo en un vídeo. Un FPS más alto produce un movimiento suave y realista, mientras que un FPS más bajo puede dar lugar a secuencias entrecortadas y menos detalladas.
Este concepto afecta directamente a la visión por ordenador, una rama de la IA que permite a las máquinas interpretar y analizar datos visuales de forma similar a como lo hacen los humanos. En visión por computador, un FPS más alto significa que los sistemas pueden capturar más información cada segundo, lo que mejora la precisión de la detección y el seguimiento de objetos en tiempo real.
En este artículo exploraremos los aspectos técnicos de los FPS y su relación con las aplicaciones de visión por ordenador. Empecemos.
Digamos que estás jugando a un juego de carreras: a 60 FPS, cada giro se siente suave y sensible, pero a 20 FPS, los controles se retrasan, lo que hace más difícil esquivar los obstáculos. En pocas palabras, los FPS son el número de imágenes fijas que se muestran por segundo. Más imágenes por segundo hacen que el movimiento parezca fluido y natural, mientras que menos imágenes pueden hacer que parezca entrecortado.
Al igual que en los juegos, los FPS son una parte fundamental de las aplicaciones de visión por ordenador. Un FPS más alto permite rastrear objetos con Vision AI sin problemas, mientras que un FPS más bajo puede hacer que se pierdan detalles.
Por ejemplo, en el análisis deportivo, las cámaras basadas en IA necesitan un FPS más alto para poder seguir los pases rápidos, los movimientos de los jugadores y las trayectorias del balón. Un FPS más bajo puede hacer que se pierda un contacto importante entre el pie y el balón o un cambio rápido de dirección, lo que afecta a la precisión del análisis.
Del mismo modo, en la supervisión del tráfico, los sistemas dependen de altos FPS para detectar vehículos que circulan a gran velocidad y cambios de carril en tiempo real. Elegir los FPS adecuados depende de los requisitos específicos de cada aplicación de visión por ordenador, equilibrando rendimiento, eficiencia y claridad visual.
Ahora que ya hemos hablado de qué son los FPS y cómo se utilizan en visión por ordenador, vamos a sumergirnos en sus aspectos técnicos, empezando por cómo calcular los FPS de un vídeo.
Dividiendo el número total de fotogramas por la duración en segundos se obtienen los FPS de un vídeo. Por ejemplo, si un vídeo tiene 96 fotogramas en 4 segundos, se calculan 24 FPS -lo que significa que se muestran 24 imágenes cada segundo-, mientras que 32 fotogramas en 4 segundos dan como resultado 8 FPS. Se pueden utilizar bibliotecas de Python como OpenCV para extraer metadatos de vídeo, contar fotogramas y calcular automáticamente los FPS, agilizando el proceso de análisis de vídeo.
Sin embargo, calcular los FPS por sí solo no basta para tomar decisiones técnicas a la hora de desarrollar soluciones de visión por ordenador. También es importante tener en cuenta los distintos factores que pueden afectar a la frecuencia de imagen efectiva, como las capacidades del hardware, las optimizaciones del software y las condiciones ambientales.
He aquí un análisis más detallado de esos factores:
Los modelos de IA como Ultralytics YOLO11, que admiten tareas de visión por ordenador en tiempo real, pueden utilizarse para analizar vídeos con altas frecuencias de cuadro. Esta capacidad en tiempo real es fundamental para aplicaciones como la conducción autónoma, la vigilancia y la robótica, en las que incluso pequeños retrasos pueden dar lugar a errores significativos.
Veamos algunas aplicaciones reales de Vision AI en las que unos FPS elevados son esenciales para la precisión y el rendimiento.
Los sistemas de vigilancia que controlan zonas de mucho tráfico, como las autopistas, utilizan una alta frecuencia de imagen para captar detalles minuciosos, lo que garantiza que los vehículos que circulan a gran velocidad queden claramente documentados. Esta claridad es esencial para los sistemas de reconocimiento automático de matrículas (ANPR ), que dependen de imágenes de buena calidad para identificar los vehículos con precisión.
En estos sistemas, se pueden utilizar modelos como YOLO11 para detectar matrículas directamente a partir de la señal de vídeo. Una vez detectada una matrícula, se utiliza el reconocimiento óptico de caracteres (OCR), que convierte imágenes de texto en caracteres legibles por máquina, para leer los detalles de la matrícula. Este proceso permite una identificación rápida y precisa de los vehículos, lo que mejora el control del tráfico y la seguridad en general.
Imaginemos un coche autoconducido en una señal de stop, analizando detenidamente su entorno para decidir si puede avanzar con seguridad. Este coche debe tomar decisiones casi instantáneas, lo que requiere capturar y procesar datos visuales en tiempo real.
Si el vehículo autónomo está equipado con cámaras capaces de captar imágenes a un mayor número de FPS, recibe un flujo de imágenes más continuo y detallado. Esta información visual mejorada permite al coche detectar rápidamente obstáculos, peatones y otros vehículos. De este modo, el vehículo puede reaccionar con rapidez a cualquier cambio en su entorno.
Si las cámaras procesaran las imágenes a un FPS inferior, el vehículo podría recibir una visión más entrecortada y menos detallada. Esto podría retrasar su tiempo de respuesta, aumentando el riesgo de perder información crítica y comprometiendo potencialmente la seguridad.
Captar cada movimiento con precisión es crucial en los deportes, donde las decisiones tomadas en fracciones de segundo pueden marcar la diferencia entre ganar y perder. La tecnología que admite un mayor número de FPS nos permite grabar hasta el más mínimo detalle en movimiento, y los entrenadores, analistas y atletas pueden revisar las jugadas a cámara lenta sin perderse ni un segundo. También ayuda a los árbitros a tomar decisiones más precisas en deportes como el tenis, el fútbol y el críquet, al proporcionar una visión clara de la acción fotograma a fotograma.
Por ejemplo, un interesante estudio sobre voleibol analizó cómo el uso de un FPS más alto mejora la evaluación del rendimiento. Aumentar los FPS de 30 a 240 mejoró significativamente la claridad del movimiento y el seguimiento de objetos. También mejoró la precisión del análisis del remate, lo que ayudó a los entrenadores a comprender con mayor precisión la colocación de las manos, los puntos de contacto con el balón y la mecánica del salto. Además, el estudio descubrió que un mayor número de FPS reducía el desenfoque del movimiento, lo que facilitaba el análisis de los saques y las reacciones defensivas.
No todas las aplicaciones de visión por ordenador requieren grabar secuencias a un FPS superior. En muchos casos, un FPS más bajo es suficiente para lograr resultados precisos, dependiendo de la tarea. A continuación se indican algunas áreas clave en las que es preferible un FPS más bajo:
Seleccionar el FPS ideal requiere equilibrar el rendimiento con las limitaciones del sistema. Estas son algunas consideraciones a tener en cuenta a la hora de optimizar los FPS para aplicaciones de aprendizaje profundo:
Los avances en inteligencia artificial y optimización del hardware están haciendo que sea posible alcanzar frecuencias de cuadro más altas, incluso en entornos con recursos limitados. Por ejemplo, sectores como el cine, los deportes y la robótica pueden beneficiarse de una gestión más inteligente de la frecuencia de imagen, en la que los sistemas ajustan dinámicamente los FPS en función de la complejidad del movimiento y la potencia de procesamiento. La interpolación de fotogramas controlada por inteligencia artificial también mejora la fluidez del vídeo al generar fotogramas adicionales en tiempo real.
Mientras tanto, un reciente avance de NVIDIA está impulsando aún más el rendimiento en FPS. DLSS 4 (Deep Learning Super Sampling) introduce la generación de fotogramas múltiples, que utiliza la IA para predecir y crear fotogramas adicionales. Esto multiplica hasta 8 veces la velocidad de fotogramas y reduce la carga de trabajo del sistema.
Al dejar que la IA se encargue de parte del renderizado, DLSS 4 consigue que los efectos visuales sean más fluidos sin sobrecargar el hardware, lo que mejora tanto el rendimiento como la eficiencia.
Los FPS son algo más que una medida de la fluidez de las imágenes: impulsan la toma de decisiones en tiempo real en la IA y la visión por ordenador. Cada fotograma de un vídeo captura datos críticos que permiten a las máquinas rastrear objetos, analizar el movimiento y responder a entornos dinámicos. Tanto si se trata de coches autónomos que evitan obstáculos como de sistemas de vigilancia que detectan amenazas al instante, los FPS adecuados garantizan precisión y eficacia.
El futuro de los FPS no consiste sólo en aumentar la velocidad de fotogramas, sino también en optimizarlos de forma inteligente. Esta evolución hará que los sistemas de visión por ordenador sean más rápidos, innovadores y eficientes en el uso de los recursos en diversos sectores.
¿Quieres saber más sobre IA? Explore nuestro repositorio de GitHub y únase a nuestra comunidad. ¿Estás listo para empezar tus propios proyectos de visión por ordenador? Consulte nuestras opciones de licencia. Descubra cómo la visión por ordenador está mejorando la eficiencia en la atención sanitaria y explore el impacto de la IA en la fabricación visitando nuestras páginas de soluciones.