La vision par ordinateur détermine la manière dont les agents d'intelligence artificielle prennent des décisions

Abirami Vina

4 min lire

20 janvier 2025

Découvrez comment les agents d'IA utilisent la vision artificielle pour réinventer les industries. Explorez leurs applications dans des domaines tels que la sécurité, les voitures autonomes, etc.

Chaque industrie, de la fabrication à la vente au détail, est confrontée à ses propres défis en matière de processus, et trouver des moyens innovants pour résoudre ces problèmes a toujours été essentiel pour gérer des entreprises prospères. Récemment, les agents d'intelligence artificielle sont devenus une solution populaire dans de nombreux domaines. Ces systèmes ne se contentent pas d'analyser des données. Ils peuvent également agir. 

Par exemple, les agents d'IA dans le secteur de la fabrication peuvent détecter les défauts en temps réel et lancer automatiquement des mesures de contrôle de la qualité pour que la production se poursuive sans heurts. De même, dans les secteurs de la logistique et de la vente au détail, ils peuvent surveiller plusieurs sites à l'aide d'une surveillance intelligente et alerter instantanément les équipes en cas d'activité inhabituelle. 

À mesure que cette tendance se développe, les agents d'IA transforment activement les industries du monde entier. Le marché mondial des agents d'IA a atteint 5,1 milliards de dollars en 2024 et devrait atteindre 47,1 milliards de dollars d'ici 2030.

__wf_reserved_inherit
Fig. 1. Aperçu de la taille du marché mondial des agents d'intelligence artificielle.

L'une des technologies clés à l'origine de ces progrès est la vision par ordinateur. En permettant aux machines de traiter et d'interpréter les données visuelles, Vision AI permet aux agents d'intelligence artificielle d'effectuer des tâches de vision artificielle telles que la détection d'objets en temps réel, la segmentation d'instances et le suivi d'objets avec une précision incroyable. Elle comble le fossé entre ce que les machines voient et la manière dont elles prennent des décisions, ce qui en fait un élément essentiel de nombreuses solutions basées sur l'IA.

Dans cet article, nous allons explorer les agents d'intelligence artificielle et leur relation avec la vision par ordinateur. Nous aborderons également les différents types d'agents d'IA et la manière dont ils sont utilisés dans les applications basées sur la vision. C'est parti !

Qu'est-ce qu'un agent d'intelligence artificielle ?

Avant d'aborder les agents d'intelligence artificielle basés sur la vision, prenons le temps de comprendre les agents d'intelligence artificielle en général pour voir à quel point ces systèmes peuvent être polyvalents.

Un agent d'intelligence artificielle est un système intelligent capable de comprendre et de répondre à des tâches ou à des questions sans avoir besoin de l'aide d'un être humain. De nombreux agents d'IA utilisent l'apprentissage automatique et le traitement du langage naturel (NLP) pour gérer un large éventail de tâches, depuis la réponse à des questions élémentaires jusqu'à la gestion de processus complexes. 

Certains agents d'IA ont même la capacité d'apprendre et de s'améliorer au fil du temps, contrairement aux systèmes d'IA traditionnels qui dépendent de l'intervention humaine pour chaque mise à jour. C'est pourquoi les agents d'intelligence artificielle deviennent rapidement un élément essentiel de l'intelligence artificielle. Ils peuvent automatiser des tâches, prendre des décisions et interagir avec leur environnement sans avoir besoin d'une supervision constante. Ils sont particulièrement utiles pour gérer les tâches répétitives et fastidieuses.

Par exemple, vous pouvez trouver des agents d'IA dans des secteurs tels que le service à la clientèle et l'hôtellerie. Les agents d'IA sont utilisés pour traiter les remboursements et offrir des recommandations de produits personnalisées dans le service à la clientèle. Dans le secteur de l'hôtellerie, ils peuvent aider le personnel hôtelier à gérer les demandes des clients, à rationaliser le service en chambre et à suggérer aux clients des attractions à proximité. Ces exemples montrent comment les agents d'IA rendent les processus quotidiens plus rapides et plus efficaces.

Comprendre le fonctionnement des agents d'IA visionnaires

Voyons maintenant comment fonctionnent les agents d'intelligence artificielle. Bien que chaque agent d'IA soit unique et conçu pour des tâches spécifiques, ils partagent tous les mêmes trois étapes principales : la perception, la prise de décision et l'action.

Tout d'abord, lors de l'étape de perception, les agents d'intelligence artificielle recueillent des informations provenant de différentes sources pour comprendre ce qui se passe. L'étape suivante est celle de la prise de décision. Sur la base des informations qu'ils recueillent, ils utilisent leurs algorithmes pour analyser la situation et décider du meilleur plan d'action. Enfin, il y a l'action. Une fois qu'ils ont pris une décision, ils l'exécutent - qu'il s'agisse de répondre à une question, d'accomplir une tâche ou de signaler un problème à un humain.

Cela peut sembler simple, mais selon le type d'agent d'IA, il se passe souvent beaucoup de choses en coulisses pour que ces étapes fonctionnent. De l'analyse de données complexes à l'utilisation de modèles d'apprentissage automatique avancés, chaque agent d'IA est conçu pour traiter des tâches spécifiques à sa manière. 

Par exemple, alors que de nombreux agents d'IA se concentrent sur le traitement du langage par le biais du NLP, d'autres - connus sous le nom d'agents d'IA de vision - intègrent la vision par ordinateur pour traiter les données visuelles. En utilisant des modèles avancés de vision artificielle comme Ultralytics YOLO11, les agents d'IA de vision peuvent effectuer des analyses d'images plus précises.

__wf_reserved_inherit
Fig. 2. Exemple de comptage de pommes dans une image à l'aide de YOLO11.

Vision Les agents d'intelligence artificielle dans les voitures autopilotées

Prenons l'exemple des voitures auto-conduites pour voir comment les agents d'IA de vision fonctionnent à travers les trois étapes principales décrites ci-dessus :

  • Perception : Les agents d'IA de vision dans les voituresauto-conduites collectent des données visuelles à partir de caméras et de capteurs installés sur le véhicule. Ces données comprennent des images et des vidéos du milieu environnant, comme les autres véhicules, les piétons, les feux de signalisation et les panneaux de signalisation.
  • Prise de décision : L'agent d'intelligence artificielle traite ces données visuelles à l'aide de modèles tels que YOLO11. Il identifie les objets tels que les voitures et les piétons, détecte les obstacles ou les changements de voie soudains, et reconnaît des schémas tels que le flux de circulation et l'état des feux de signalisation. Cela aide la voiture à comprendre l'état de la route en temps réel.
  • Action : Sur la base de son analyse, l'agent d'intelligence artificielle prend des mesures, par exemple en braquant pour éviter un obstacle, en ajustant la vitesse ou en s'arrêtant à un feu rouge. Ces décisions sont prises rapidement pour garantir une conduite sûre et efficace.

Les voitures autonomes de Waymo sont un excellent exemple de cette technologie. Elles utilisent des agents d'IA visionnaires pour comprendre leur environnement, prendre des décisions en temps réel et naviguer sur les routes de manière sûre et efficace sans intervention humaine.

__wf_reserved_inherit
Fig 3. Le taxi autopiloté de Waymo, basé sur un agent d'IA.

Types d'agents d'IA visionnaires 

Maintenant que nous avons vu comment fonctionnent les agents d'intelligence artificielle et comment ils utilisent la vision artificielle, examinons les différents types d'agents d'intelligence artificielle. Chaque type est conçu pour des tâches spécifiques, allant d'actions simples à des prises de décision et des apprentissages plus complexes.

Agents réflexes simples

Les agents réflexes simples sont le type d'agent d'IA le plus élémentaire. Ils répondent à des entrées spécifiques par des actions prédéfinies, basées uniquement sur la situation actuelle, sans tenir compte de l'historique ou des résultats futurs. Ces agents utilisent généralement de simples règles "si-alors" pour guider leur comportement.

En ce qui concerne l'analyse d'images, un simple agent réflexe peut être programmé pour détecter une couleur particulière (comme le rouge) et déclencher une action immédiate (comme mettre en évidence ou compter les objets rouges). Si cela peut fonctionner pour des tâches simples, ce n'est pas le cas dans des environnements plus complexes, car l'agent n'apprend pas et ne s'adapte pas à ses expériences antérieures.

Agents réflexes basés sur des modèles

Les agents réflexes basés sur un modèle sont plus avancés que les agents réflexes simples car ils utilisent un modèle interne de leur environnement pour mieux comprendre la situation. Ce modèle leur permet de gérer les informations manquantes ou incomplètes et de prendre des décisions plus éclairées. 

Prenons l'exemple des systèmes de caméras de sécurité à IA. Les agents d'IA intégrés dans ces systèmes peuvent utiliser la vision par ordinateur pour analyser ce qui se passe en temps réel. Ils peuvent comparer les mouvements et les actions à un modèle de comportement normal, ce qui leur permet de repérer les activités inhabituelles, comme le vol à l'étalage, et de signaler avec plus de précision les menaces potentielles pour la sécurité.

__wf_reserved_inherit
Fig. 4. Exemple d'utilisation de la vision artificielle pour détecter les vols.

Agents basés sur l'utilité

Pensez à un drone utilitaire utilisé pour la surveillance des cultures. Il ajuste sa trajectoire de vol pour couvrir plus de terrain tout en évitant les obstacles et sélectionne le meilleur itinéraire pour la tâche à accomplir. Cela signifie que le drone évalue plusieurs actions potentielles, telles que la zone à privilégier ou la manière de naviguer efficacement, et choisit celle qui maximise son efficacité. 

De même, les agents basés sur l'utilité sont conçus pour choisir la meilleure action parmi plusieurs options afin d'obtenir le plus grand bénéfice ou résultat. Les agents d'IA visuelle conçus à cet effet peuvent traiter et analyser différentes entrées visuelles, telles que des images ou des données de capteurs, et sélectionner le résultat le plus utile sur la base de critères prédéfinis.

 

__wf_reserved_inherit
Fig. 5. Les drones utilitaires peuvent être utilisés pour la surveillance des cultures.

Agents basés sur des objectifs

Les agents basés sur les objectifs sont similaires aux agents basés sur l'utilité car ils visent tous deux à atteindre des objectifs spécifiques. Cependant, les agents basés sur les objectifs se concentrent uniquement sur les actions qui les rapprochent de l'objectif défini. Ils évaluent chaque action en fonction de sa contribution à la réalisation de leur objectif, sans tenir compte d'autres facteurs tels que la valeur globale ou les compromis.

Par exemple, une voiture autopilotée fonctionne comme un agent basé sur des objectifs lorsque son but est d'atteindre une destination. Elle traite les données provenant des caméras et des capteurs de l'IA pour prendre des décisions telles que l'évitement des obstacles, le respect des feux de circulation et le choix des bons virages pour rester sur la bonne voie. Ces décisions sont entièrement guidées par leur adéquation avec l'objectif d'atteindre la destination de manière sûre et efficace. Contrairement aux agents basés sur l'utilité, les agents basés sur les objectifs se concentrent uniquement sur la réalisation de l'objectif sans prendre en compte d'autres critères tels que l'efficacité ou l'optimisation.

__wf_reserved_inherit
Fig. 6. Une voiture auto-conduite utilisant la vision artificielle pour identifier les objets dans son environnement.

Agents d'apprentissage

Si vous êtes familier avec la vision par ordinateur, vous avez peut-être entendu parler du réglage fin - un processus par lequel les modèles s'améliorent en apprenant à partir de nouvelles données. Les agents d'apprentissage fonctionnent de la même manière, en s'adaptant et en s'améliorant au fil du temps, à mesure qu'ils acquièrent de l'expérience. Dans des applications telles que le contrôle de qualité basé sur la vision, ces agents s'améliorent pour détecter les défauts à chaque inspection. Cette capacité à affiner leurs performances est particulièrement importante dans des domaines tels que l'aviation, où la sécurité et la précision sont essentielles.

Agents hiérarchiques

Les agents hiérarchiques simplifient les tâches complexes en les divisant en étapes plus petites et plus faciles à gérer. Un agent de niveau supérieur supervise l'ensemble du processus et prend des décisions stratégiques, tandis que des agents de niveau inférieur s'occupent de tâches spécifiques. Cette méthode est plus efficace lorsqu'il s'agit d'opérations qui impliquent de multiples étapes et une exécution détaillée.

Par exemple, dans un entrepôt automatisé, un robot de niveau supérieur peut planifier le processus de tri, en décidant quels articles doivent aller dans quelles zones. Parallèlement, les robots de niveau inférieur se concentrent sur l'identification des articles à l'aide de la vision par ordinateur, en analysant les caractéristiques telles que la taille, la forme ou les étiquettes, et en les organisant dans les bons bacs. Une répartition claire des responsabilités contribue au bon fonctionnement du système.

__wf_reserved_inherit
Fig. 7. Exemple d'un agent robotique d'IA triant des paquets.

Comment commencer à construire un agent d'IA visionnaire

Le cœur d'un agent d'intelligence artificielle doté de capacités visuelles est un modèle de vision par ordinateur. L'un des modèles de vision par ordinateur les plus récents et les plus fiables disponibles aujourd'hui est Ultralytics YOLO11. YOLO11 est connu pour son efficacité et sa précision en temps réel, ce qui le rend parfait pour les tâches de vision par ordinateur.

Voici les différents processus impliqués dans la construction de votre propre agent d'intelligence artificielle avec les capacités de YOLO11 :

  • Préparer un jeu de données: Recueillez et prétraitez des images étiquetées correspondant à la tâche que votre agent d'intelligence artificielle va effectuer.
  • Entraînement sur mesure le modèle : Entraînez YOLO11 spécifiquement sur votre ensemble de données afin d'améliorer sa précision et ses performances pour votre application unique.
  • Intégrer un cadre décisionnel : Connectez le modèle formé à un système qui permet à l'agent d'IA de prendre des décisions basées sur des données visuelles.
  • Tester et affiner : Déployer l'agent d'intelligence artificielle, tester ses performances, recueillir des informations en retour et ajuster le modèle pour en améliorer la précision et la fiabilité.

Principaux enseignements

Les agents d'IA intégrés à la vision par ordinateur - les agents d'IA de vision - changent les industries en automatisant les tâches, en accélérant les processus et en améliorant la prise de décision. Des villes intelligentes contrôlant la circulation aux systèmes de sécurité utilisant la reconnaissance faciale, ces agents apportent de nouvelles solutions à des problèmes courants. 

Ils peuvent également apprendre et s'améliorer au fil du temps, ce qui les rend utiles dans des environnements changeants. Avec des outils comme YOLO11, la création et l'utilisation de ces agents d'intelligence artificielle sont plus faciles, ce qui permet de trouver des solutions plus intelligentes et plus efficaces.

Rejoignez notre communauté et consultez notre dépôt GitHub pour en savoir plus sur l'IA. Explorez les diverses applications de la vision par ordinateur dans les soins de santé et de l'IA dans l'agriculture sur nos pages de solutions. Jetez un coup d'œil aux options de licence disponibles pour commencer !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers