Comprendre le rôle des FPS dans la vision par ordinateur

Abirami Vina

4 min lire

20 mars 2025

Découvrez l'importance du nombre d'images par seconde dans le domaine de la vision par ordinateur et son impact sur la détection d'objets en temps réel, l'analyse vidéo et les applications basées sur l'IA.

Regarder un ralenti de votre moment sportif préféré, où chaque détail est clair, est très différent de regarder une vidéo de surveillance qui semble généralement saccadée et difficile à suivre. Le principal détail technique à l'origine de ces différences est le nombre d'images par seconde (FPS), qui correspond au nombre d'images affichées par seconde dans une vidéo. Un nombre d'images par seconde élevé se traduit par des mouvements fluides et réalistes, tandis qu'un nombre d'images par seconde plus faible peut donner lieu à des séquences saccadées et moins détaillées.

Ce concept a un impact direct sur la vision par ordinateur, une branche de l'IA qui permet aux machines d'interpréter et d'analyser les données visuelles comme le font les humains. Dans le domaine de la vision par ordinateur, un taux d'images par seconde plus élevé signifie que les systèmes peuvent capturer plus d'informations par seconde, ce qui améliore la précision de la détection et du suivi des objets en temps réel.

Dans cet article, nous allons explorer les aspects techniques du FPS et la manière dont il est lié aux applications de vision par ordinateur. Commençons par le commencement !

Que signifie FPS dans le domaine de la vision par ordinateur ?

Supposons que vous jouiez à un jeu de course : à 60 FPS, chaque virage semble fluide et réactif, mais à 20 FPS, les commandes traînent et il est plus difficile d'esquiver les obstacles. En d'autres termes, le nombre d'images par seconde correspond au nombre d'images fixes affichées chaque seconde. Plus il y a d'images par seconde, plus le mouvement semble fluide et naturel, tandis que moins il y a d'images, plus le mouvement semble saccadé.

Tout comme dans les jeux, le taux de rafraîchissement est un élément clé des applications de vision par ordinateur. Un taux d'images par seconde élevé permet de suivre les objets en douceur à l'aide de Vision AI, tandis qu'un taux d'images par seconde plus faible peut entraîner une perte de détails. 

Par exemple, dans le domaine de l'analyse sportive, les caméras alimentées par l'IA ont besoin d'un FPS plus élevé pour pouvoir suivre les passes rapides, les mouvements des joueurs et les trajectoires du ballon. Un taux d'images par seconde plus faible peut conduire à manquer un contact important entre le pied et le ballon ou un changement de direction rapide, ce qui a un impact sur la précision de l'analyse. 

De même, dans le domaine de la surveillance du trafic, les systèmes s'appuient sur un nombre élevé d'images par seconde pour détecter les véhicules en excès de vitesse et les changements de voie en temps réel. Le choix de la bonne vitesse de défilement dépend des exigences spécifiques de chaque application de vision par ordinateur, en équilibrant les performances, l'efficacité et la clarté visuelle.

__wf_reserved_inherit
Fig. 1. Comparaison de différentes fréquences d'images.

Aspects techniques des FPS dans le domaine de la vision par ordinateur

Maintenant que nous avons expliqué ce qu'est le FPS et comment il est utilisé en vision par ordinateur, nous allons nous pencher sur ses aspects techniques, en commençant par la manière de calculer le FPS d'une vidéo. 

En divisant le nombre total d'images par la durée en secondes, on obtient le nombre d'images par seconde d'une vidéo. Par exemple, si une vidéo comporte 96 images sur 4 secondes, cela correspond à 24 images par seconde, ce qui signifie que 24 images sont affichées chaque seconde, alors que 32 images sur 4 secondes correspondent à 8 images par seconde. Les bibliothèques Python telles que OpenCV peuvent être utilisées pour extraire les métadonnées vidéo, compter les images et calculer automatiquement le nombre d'images par seconde, ce qui simplifie le processus d'analyse vidéo.

__wf_reserved_inherit
Fig 2. 24 FPS vs 8 FPS vs 4FPS.

Facteurs affectant le FPS d'une vidéo

Cependant, le calcul du nombre d'images par seconde ne suffit pas pour prendre des décisions techniques lors du développement de solutions de vision par ordinateur. Il est également important de prendre en compte les différents facteurs qui peuvent affecter la fréquence d'images effective, tels que les capacités matérielles, les optimisations logicielles et les conditions environnementales. 

Voici un examen plus approfondi de ces facteurs :

  • Capacités matérielles: La qualité du capteur de la caméra et la puissance de traitement de l'appareil peuvent déterminer le nombre d'images capturées par seconde. Un matériel de meilleure qualité permet généralement d'obtenir un nombre d'images par seconde plus élevé et des vidéos plus fluides.
  • Optimisation des logiciels: Des logiciels de codage et de traitement vidéo efficaces permettent d'extraire et d'analyser rapidement les images. La vidéo est ainsi traitée sans retard inutile.
  • Conditions environnementales: L'éclairage et le mouvement d'une scène influencent la clarté des images capturées. Un bon éclairage et un mouvement modéré peuvent améliorer le taux de rafraîchissement, tandis que de mauvaises conditions peuvent nécessiter un taux de rafraîchissement plus élevé pour maintenir la clarté.
  • Besoins en stockage: Un taux d'images par seconde plus élevé permet de capturer plus d'images par seconde, ce qui se traduit par des fichiers plus volumineux. Cela augmente les besoins en stockage et exige un traitement plus rapide des données pour assurer une lecture fluide.

Explorer les FPS dans les applications de vision par ordinateur

Les modèles d'IA comme Ultralytics YOLO11 qui prennent en charge les tâches de vision par ordinateur en temps réel peuvent être utilisés pour analyser des vidéos avec des fréquences d'images élevées. Cette capacité en temps réel est essentielle pour des applications telles que la conduite autonome, la surveillance et la robotique, où même de petits retards peuvent entraîner des erreurs importantes. 

Passons en revue quelques applications Vision AI du monde réel pour lesquelles un taux de rafraîchissement élevé est essentiel pour la précision et les performances. 

Une fréquence d'images plus élevée pour les solutions de surveillance et de sécurité

Les systèmes de surveillance des zones à forte circulation, comme les autoroutes, utilisent un taux d'images par seconde élevé pour capturer les moindres détails et s'assurer que les véhicules en mouvement rapide sont clairement documentés. Cette clarté est essentielle pour les systèmes de reconnaissance automatique des plaques d'immatriculation (RAPI ), qui s'appuient sur des images de bonne qualité pour identifier les véhicules avec précision.

Dans ces systèmes, des modèles comme YOLO11 peuvent être utilisés pour détecter les plaques d'immatriculation directement à partir du flux vidéo. Une fois la plaque détectée, la reconnaissance optique de caractères (OCR), qui convertit les images de texte en caractères lisibles par une machine, est utilisée pour lire les détails de la plaque. Ce processus permet une identification rapide et précise des véhicules, améliorant ainsi le contrôle de la circulation et la sécurité en général.

__wf_reserved_inherit
Fig. 3. Utilisation de YOLO11 pour détecter les plaques d'immatriculation.

Comprendre les exigences du SFP pour les systèmes autonomes

Prenons l'exemple d'une voiture autonome à un panneau d'arrêt, qui analyse attentivement son environnement pour décider si elle peut avancer en toute sécurité. Cette voiture doit prendre des décisions quasi instantanées, ce qui nécessite de capturer et de traiter des données visuelles en temps réel. 

Si le véhicule autonome est équipé de caméras capables de capturer des séquences à un taux d'images par seconde plus élevé, il reçoit un flux d'images plus continu et plus détaillé. Cet apport visuel amélioré permet à la voiture de détecter rapidement les obstacles, les piétons et les autres véhicules. Le véhicule peut ainsi réagir rapidement à tout changement dans son environnement.

Si les caméras traitent les images à un taux d'images par seconde inférieur, le véhicule risque de recevoir une image plus hachée et moins détaillée. Cela pourrait retarder son temps de réponse, augmenter le risque de manquer des informations critiques et potentiellement compromettre la sécurité.

Le lien entre les FPS et l'analyse du sport

Saisir chaque mouvement avec précision est essentiel dans le domaine du sport, où les décisions prises en une fraction de seconde peuvent faire toute la différence entre la victoire et la défaite. La technologie qui prend en charge un taux d'images par seconde plus élevé nous permet d'enregistrer chaque petit détail du mouvement, et les entraîneurs, les analystes et les athlètes peuvent revoir les jeux au ralenti sans perdre une miette. Elle aide également les arbitres à prendre des décisions plus précises dans des sports tels que le tennis, le football et le cricket, en fournissant une vue claire de l'action, image par image.

Par exemple, une étude intéressante sur le volley-ball a analysé comment l'utilisation d'un FPS plus élevé améliore l'évaluation des performances. L'augmentation du nombre d'images par seconde de 30 à 240 a considérablement amélioré la clarté des mouvements et le suivi des objets. La précision de l'analyse des pointes s'est également améliorée, aidant les entraîneurs à comprendre plus précisément le positionnement des mains, les points de contact avec le ballon et la mécanique des sauts. En outre, l'étude a révélé qu'un FPS plus élevé réduisait le flou des mouvements, ce qui facilite l'analyse des services et des réactions défensives. 

__wf_reserved_inherit
Fig. 4. Comparaison entre un faible et un fort taux d'images par seconde en ce qui concerne la clarté des mouvements.

Quand l'utilisation d'un faible taux d'images par seconde est efficace dans l'analyse vidéo

Toutes les applications de vision par ordinateur ne nécessitent pas l'enregistrement de séquences à une vitesse d'images par seconde plus élevée. Dans de nombreux cas, un taux d'images par seconde inférieur est suffisant pour obtenir des résultats précis, en fonction de la tâche. Voici quelques domaines clés dans lesquels il est préférable d'utiliser une fréquence d'images plus faible :

  • Post-traitement et analyse hors ligne: Pour des applications telles que la surveillance du trafic et l'analyse des foules, il n'est pas toujours nécessaire de capturer chaque image à un taux d'images par seconde élevé. Un taux d'images par seconde plus faible peut toujours fournir suffisamment de données pour analyser les schémas de mouvement, tels que le flux de véhicules, la densité des piétons et les tendances en matière d'encombrement. En réduisant les images redondantes, cette approche minimise les besoins de stockage et la charge de calcul tout en maintenant des analyses précises.
  • Surveillance de l'environnement en accéléré : Pour suivre les changements lents tels que la croissance des plantes, l'avancement des travaux de construction ou le mouvement des glaciers, il suffit de capturer une image toutes les quelques minutes ou une fois par jour, ce qui permet de documenter efficacement les transformations à long terme tout en économisant de l'espace de stockage.
  • Environnements à ressources limitées: Dans le cadre de la surveillance de la faune et de la sécurité à distance, une faible fréquence d'images par seconde permet d'économiser la batterie et l'espace de stockage. Les caméras à déclenchement de mouvement fonctionnant à 5-10 FPS peuvent capturer des événements essentiels pendant de longues périodes, ce qui les rend idéales pour les installations hors réseau.

Choisir le bon FPS pour les applications d'apprentissage profond

Pour choisir le taux de rafraîchissement idéal, il faut trouver un équilibre entre les performances et les limites du système. Voici quelques considérations à garder à l'esprit lors de l'optimisation du taux de rafraîchissement pour les applications d'apprentissage profond :

  • Équilibrer les performances et les ressources: Un taux de rafraîchissement plus élevé améliore la réactivité, mais augmente également les besoins en énergie et en traitement. L'ajustement dynamique du taux de rafraîchissement, l'utilisation de l'interpolation d'images et l'optimisation du matériel peuvent contribuer à maintenir des performances fluides sans surcharger le système.
  • Besoins spécifiques à l'application: Les exigences en matière d'images par seconde varient d'une application à l'autre. Les appareils alimentés par batterie doivent utiliser un nombre d'images par seconde plus faible pour économiser l'énergie, tandis que les systèmes en temps réel tels que les drones et les véhicules autonomes ont besoin d'un nombre d'images par seconde plus élevé pour obtenir des réponses rapides et précises.
  • Test et optimisation: Les paramètres de vitesse de défilement devraient idéalement être testés dans différentes conditions d'éclairage et de mouvement. L'évaluation de la latence et la comparaison des niveaux de FPS côte à côte permettent de déterminer le meilleur équilibre entre la réactivité, la qualité visuelle et l'efficacité des ressources.

Innovations futures et optimisation du FPS pour les modèles d'IA

Les progrès de l'IA et de l'optimisation du matériel permettent d'atteindre des fréquences d'images plus élevées, même dans des environnements aux ressources limitées. Par exemple, des secteurs comme le cinéma, le sport et la robotique peuvent bénéficier d'une gestion plus intelligente de la fréquence d'images, où les systèmes ajustent dynamiquement la fréquence d'images en fonction de la complexité des mouvements et de la puissance de traitement. L'interpolation d'images pilotée par l'IA améliore également la fluidité de la vidéo en générant des images supplémentaires en temps réel.

Parallèlement, une récente avancée de NVIDIA permet de pousser encore plus loin les performances en matière de FPS. DLSS 4 (Deep Learning Super Sampling) introduit la génération d'images multiples, qui utilise l'IA pour prédire et créer des images supplémentaires. Cela permet de multiplier par 8 les taux de rafraîchissement tout en réduisant la charge de travail du système.

En laissant l'IA prendre en charge une partie du rendu, DLSS 4 rend les images plus fluides sans solliciter davantage le matériel, améliorant ainsi les performances et l'efficacité.

Principaux enseignements

Le nombre d'images par seconde est plus qu'une simple mesure de la fluidité des images ; il permet de prendre des décisions en temps réel dans les domaines de l'intelligence artificielle et de la vision par ordinateur. Chaque image d'une vidéo capture des données essentielles, permettant aux machines de suivre les objets, d'analyser les mouvements et de réagir aux environnements dynamiques. Qu'il s'agisse de voitures autonomes évitant les obstacles ou de systèmes de surveillance détectant instantanément les menaces, le bon FPS garantit la précision et l'efficacité.

L'avenir des systèmes de vision artificielle ne se résume pas à l'augmentation des fréquences d'images, mais aussi à leur optimisation intelligente. Cette évolution rendra les systèmes de vision par ordinateur plus rapides, plus innovants et plus économes en ressources dans divers secteurs.

Vous voulez en savoir plus sur l'IA ? Explorez notre dépôt GitHub et rejoignez notre communauté. Vous êtes prêt à lancer vos propres projets de vision par ordinateur ? Consultez nos options de licence. Découvrez comment la vision par ordinateur améliore l'efficacité des soins de santé et explorez l'impact de l'IA dans l'industrie manufacturière en visitant nos pages de solutions !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers