Compreender o papel do FPS na visão computacional

Abirami Vina

4 min ler

20 de março de 2025

Veja por que razão o FPS na visão computacional é importante e como afecta a deteção de objectos em tempo real, a análise de vídeo e as aplicações baseadas em IA.

Assistir a uma repetição em câmara lenta do seu momento desportivo favorito, em que todos os detalhes são nítidos, é muito diferente de assistir a imagens de vigilância que, normalmente, parecem irregulares e difíceis de seguir. O principal pormenor técnico por detrás destas diferenças é o FPS, ou fotogramas por segundo, que se refere ao número de fotogramas apresentados por segundo num vídeo. Um FPS mais elevado resulta em movimentos suaves e realistas, enquanto um FPS mais baixo pode dar origem a filmagens instáveis e menos detalhadas.

Este conceito tem um impacto direto na visão por computador, um ramo da IA que permite às máquinas interpretar e analisar dados visuais de forma semelhante à dos humanos. Na visão por computador, um FPS mais elevado significa que os sistemas podem captar mais informações por segundo, melhorando a precisão da deteção e seguimento de objectos em tempo real.

Neste artigo, vamos explorar os aspectos técnicos do FPS e a sua relação com as aplicações de visão por computador. Vamos começar!

O que significa FPS em visão computacional?

Digamos que está a jogar um jogo de corridas: a 60 FPS, cada curva é suave e reactiva, mas a 20 FPS, os controlos ficam atrasados, tornando mais difícil desviar-se dos obstáculos. Em termos simples, pode pensar em FPS como o número de imagens fixas que são mostradas por segundo. Mais imagens por segundo fazem com que o movimento pareça suave e natural, enquanto que menos imagens podem fazer com que pareça instável.

Tal como nos jogos, o FPS é uma parte fundamental das aplicações de visão por computador. Um FPS mais elevado permite seguir objectos utilizando a IA de visão sem problemas, enquanto um FPS mais baixo pode resultar na perda de detalhes. 

Por exemplo, na análise desportiva, as câmaras alimentadas por IA necessitam de um FPS mais elevado para poderem seguir passes rápidos, movimentos dos jogadores e trajectórias da bola. Um FPS mais baixo pode fazer com que se perca um contacto importante entre o pé e a bola ou uma mudança rápida de direção, afectando a precisão da análise. 

Da mesma forma, na monitorização do tráfego, os sistemas dependem de FPS elevados para detetar veículos em excesso de velocidade e mudanças de faixa em tempo real. A escolha do FPS correto depende dos requisitos específicos de cada aplicação de visão por computador, equilibrando desempenho, eficiência e clareza visual.

__wf_reserved_inherit
Fig. 1. Comparação de diferentes velocidades de fotogramas.

Aspectos técnicos do FPS na visão por computador

Agora que já falámos sobre o que é o FPS e como é utilizado na visão por computador, vamos mergulhar nos seus aspectos técnicos - começando por como calcular o FPS de um vídeo. 

Dividindo o número total de fotogramas pela duração em segundos, obtém-se o FPS de um vídeo. Por exemplo, se um vídeo tiver 96 fotogramas ao longo de 4 segundos, calcula-se 24 FPS, o que significa que são apresentadas 24 imagens por segundo, enquanto 32 fotogramas ao longo de 4 segundos resultam em 8 FPS. As bibliotecas Python, como o OpenCV, podem ser utilizadas para extrair metadados de vídeo, contar fotogramas e calcular automaticamente o FPS, simplificando o processo de análise de vídeo.

__wf_reserved_inherit
Fig 2. 24 FPS vs 8 FPS vs 4FPS.

Factores que afectam o FPS de um vídeo

No entanto, calcular o FPS por si só não é suficiente para tomar decisões técnicas ao desenvolver soluções de visão computacional. Também é importante considerar os vários factores que podem afetar a taxa de fotogramas efectiva, tais como capacidades de hardware, optimizações de software e condições ambientais. 

Eis um olhar mais atento a esses factores:

  • Capacidades de hardware: A qualidade do sensor da câmara e a capacidade de processamento do dispositivo podem determinar quantos fotogramas são capturados por segundo. Um hardware melhor geralmente significa suporte para um FPS mais alto e um vídeo mais suave.
  • Optimizações de software: Um software eficiente de codificação e processamento de vídeo ajuda a extrair e analisar os fotogramas rapidamente. Isto assegura que o vídeo é processado sem atrasos desnecessários.
  • Condições ambientais: A iluminação e o movimento numa cena afectam a clareza com que os fotogramas são capturados. Uma boa iluminação e um movimento moderado podem melhorar o FPS, enquanto que condições fracas podem exigir um FPS mais elevado para manter a nitidez.
  • Necessidades de armazenamento: Um FPS mais elevado capta mais fotogramas por segundo, o que resulta em ficheiros de maiores dimensões. Isto aumenta os requisitos de armazenamento e exige um processamento de dados mais rápido para garantir uma reprodução suave.

Explorar o FPS em aplicações de visão por computador

Os modelos de IA, como o Ultralytics YOLO11, que suportam tarefas de visão computacional em tempo real, podem ser utilizados para analisar vídeos com elevadas taxas de fotogramas. Esta capacidade em tempo real é fundamental para aplicações como a condução autónoma, a vigilância e a robótica, em que mesmo pequenos atrasos podem conduzir a erros significativos. 

Vamos analisar algumas aplicações de IA de visão do mundo real em que um FPS elevado é essencial para a precisão e o desempenho. 

Um rácio de fotogramas mais elevado para soluções de vigilância e segurança

Os sistemas de vigilância que monitorizam áreas de elevado tráfego, como as auto-estradas, utilizam um FPS elevado para captar detalhes minuciosos, garantindo que os veículos em movimento rápido são claramente documentados. Esta clareza é essencial para os sistemas de reconhecimento automático de matrículas (ANPR), que dependem de filmagens de boa qualidade para identificar os veículos com exatidão.

Nesses sistemas, modelos como o YOLO11 podem ser utilizados para detetar matrículas diretamente a partir da transmissão de vídeo. Uma vez detectada uma matrícula, o reconhecimento ótico de caracteres (OCR), que converte imagens de texto em caracteres legíveis por máquina, é utilizado para ler os detalhes da matrícula. Este processo permite uma identificação rápida e exacta do veículo, melhorando o controlo do tráfego e a segurança geral.

__wf_reserved_inherit
Fig. 3. Utilização do YOLO11 para detetar matrículas.

Compreender os requisitos de FPS para sistemas autónomos

Considere um carro autónomo num sinal de stop, analisando cuidadosamente o que o rodeia para decidir se pode avançar em segurança. Este automóvel tem de tomar decisões quase instantâneas, o que exige a captura e o processamento de dados visuais em tempo real. 

Se o veículo autónomo estiver equipado com câmaras que possam captar imagens a um FPS mais elevado, recebe um fluxo de imagens mais contínuo e detalhado. Esta entrada visual melhorada permite que o automóvel detecte rapidamente obstáculos, peões e outros veículos. Torna possível que o veículo reaja prontamente a quaisquer alterações no seu ambiente.

Se as câmaras estivessem a processar imagens a um FPS inferior, o veículo poderia receber uma imagem mais fragmentada e menos detalhada. Isto poderia atrasar o seu tempo de resposta, aumentando o risco de perder informação crítica e potencialmente comprometer a segurança.

A ligação entre FPS e análise desportiva

Captar todos os movimentos com precisão é crucial no desporto, onde as decisões em fracções de segundo podem fazer toda a diferença entre ganhar e perder. A tecnologia que suporta um FPS mais elevado permite-nos registar todos os pequenos detalhes em movimento, e os treinadores, analistas e atletas podem rever as jogadas em câmara lenta sem perderem o ritmo. Também ajuda os árbitros a tomar decisões mais precisas em desportos como o ténis, o futebol e o críquete, proporcionando uma visão clara da ação, fotograma a fotograma.

Por exemplo, um estudo interessante sobre voleibol analisou a forma como a utilização de um FPS mais elevado melhora a avaliação do desempenho. Aumentar o FPS de 30 para 240 melhorou significativamente a nitidez do movimento e o seguimento de objectos. A precisão da análise de picos também melhorou, ajudando os treinadores a compreender com maior precisão o posicionamento das mãos, os pontos de contacto com a bola e a mecânica do salto. Para além disso, o estudo concluiu que um FPS mais elevado reduziu a desfocagem do movimento, facilitando a análise dos serviços e das reacções defensivas. 

__wf_reserved_inherit
Fig. 4. Comparação de FPS baixos e altos no que respeita à nitidez do movimento.

Quando a utilização de um FPS baixo é eficaz na análise de vídeo

Nem todas as aplicações de visão por computador requerem a gravação de imagens a um FPS mais elevado. Em muitos casos, um FPS mais baixo é suficiente para obter resultados precisos, dependendo da tarefa. Aqui estão algumas áreas-chave onde um FPS mais baixo é preferível:

  • Pós-processamento e análise offline: Para aplicações como a monitorização do tráfego e a análise de multidões, a captura de todos os fotogramas a um FPS elevado nem sempre é necessária. Um FPS mais baixo ainda pode fornecer dados suficientes para analisar padrões de movimento, como fluxo de veículos, densidade de pedestres e tendências de congestionamento. Ao reduzir os quadros redundantes, essa abordagem minimiza os requisitos de armazenamento e a carga computacional, mantendo análises precisas.
  • Monitorização ambiental com lapso de tempo: Para acompanhar mudanças lentas, como o crescimento das plantas, o progresso da construção ou o movimento dos glaciares, é suficiente capturar um fotograma a cada poucos minutos ou uma vez por dia, documentando eficazmente as transformações a longo prazo e poupando armazenamento.
  • Ambientes com recursos limitados: Na monitorização da vida selvagem e na segurança remota, um FPS mais baixo ajuda a conservar a vida útil da bateria e o armazenamento. As câmaras acionadas por movimento que funcionam a 5-10 FPS podem captar eventos essenciais durante longos períodos, o que as torna ideais para instalações fora da rede.

Escolher o FPS correto para aplicações de aprendizagem profunda

A seleção do FPS ideal requer um equilíbrio entre o desempenho e as limitações do sistema. Aqui estão algumas considerações a ter em mente ao otimizar o FPS para aplicações de aprendizagem profunda:

  • Equilíbrio entre desempenho e recursos: Um FPS mais elevado melhora a capacidade de resposta, mas também aumenta as exigências de energia e processamento. Ajustar o FPS dinamicamente, utilizar a interpolação de fotogramas e otimizar o hardware pode ajudar a manter um desempenho suave sem sobrecarregar o sistema.
  • Necessidades específicas da aplicação: Diferentes aplicações têm diferentes requisitos de FPS. Os dispositivos alimentados por bateria devem utilizar FPS mais baixos para conservar energia, enquanto os sistemas em tempo real, como os drones e os veículos autónomos, necessitam de FPS mais elevados para respostas rápidas e precisas.
  • Testes e otimização: Idealmente, as definições de FPS devem ser testadas em diferentes condições de iluminação e movimento. A avaliação da latência e a comparação dos níveis de FPS lado a lado ajudam a determinar o melhor equilíbrio entre capacidade de resposta, qualidade visual e eficiência de recursos.

Inovações futuras e otimização de FPS para modelos de IA

Os avanços na IA e na otimização de hardware estão a tornar mais viáveis taxas de fotogramas mais elevadas, mesmo em ambientes com recursos limitados. Por exemplo, indústrias como o cinema, o desporto e a robótica podem beneficiar de uma gestão mais inteligente da velocidade de fotogramas, em que os sistemas ajustam dinamicamente o FPS com base na complexidade do movimento e na capacidade de processamento. A interpolação de fotogramas baseada em IA também melhora a suavidade do vídeo ao gerar fotogramas adicionais em tempo real.

Entretanto, um avanço recente da NVIDIA está a levar o desempenho FPS ainda mais longe. O DLSS 4 (Deep Learning Super Sampling) introduz a geração de vários quadros, que usa IA para prever e criar quadros extras. Isto aumenta as taxas de fotogramas até 8 vezes, reduzindo a carga de trabalho do sistema.

Ao deixar a IA tratar de parte da renderização, o DLSS 4 torna os visuais mais suaves sem sobrecarregar o hardware, melhorando o desempenho e a eficiência.

Principais conclusões

O FPS é mais do que apenas uma medida de suavidade visual; ele impulsiona a tomada de decisões em tempo real em IA e visão computacional. Cada fotograma de um vídeo capta dados críticos, permitindo às máquinas localizar objectos, analisar movimentos e responder a ambientes dinâmicos. Quer se trate de carros autónomos que evitam obstáculos ou de sistemas de vigilância que detectam ameaças instantaneamente, o FPS correto garante precisão e eficiência.

O futuro do FPS não se resume a aumentar as taxas de fotogramas, mas também a optimizá-las de forma inteligente. Esta evolução tornará os sistemas de visão por computador mais rápidos, mais inovadores e mais eficientes em termos de recursos em vários sectores.

Quer saber mais sobre IA? Explore o nosso repositório GitHub e junte-se à nossa comunidade. Pronto para iniciar seus próprios projetos de visão computacional? Veja as nossas opções de licenciamento. Saiba como a visão computacional nos cuidados de saúde está a melhorar a eficiência e explore o impacto da IA no fabrico visitando as nossas páginas de soluções!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência