Glossaire

Auto-GPT

Découvre Auto-GPT : une IA open-source qui s'auto-prompt pour atteindre de manière autonome des objectifs, s'attaquer à des tâches et révolutionner la résolution de problèmes.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Auto-GPT représente une aventure expérimentale dans la création d'agents d'intelligence artificielle autonomes, en tirant parti de la puissance des grands modèles de langage (LLM) tels que le GPT-4 d'OpenAI. Contrairement aux applications d'IA typiques qui nécessitent des instructions spécifiques pour chaque étape, Auto-GPT vise à prendre un objectif de haut niveau défini par un utilisateur et à le décomposer de manière autonome en sous-tâches, à les exécuter, à apprendre des résultats et à adapter son approche jusqu'à ce que l'objectif soit atteint. Il fonctionne en enchaînant des "pensées" LLM pour raisonner, planifier et exécuter des actions, en essayant de simuler un degré de résolution de problèmes autonome pertinent pour la recherche sur l'intelligence artificielle (IA).

Concepts de base et fonctionnalités

Au fond, Auto-GPT fonctionne en boucle, en fonction d'un objectif défini par l'utilisateur. Il utilise un LLM, auquel on accède généralement par le biais d'une API, pour ses capacités de raisonnement de base. Le processus implique généralement :

  1. Décomposition des objectifs : Décomposer l'objectif principal en étapes plus petites et plus faciles à gérer.
  2. Planification : Créer une séquence d'actions pour réaliser ces étapes. Il peut s'agir de rechercher sur le Web, d'écrire du code, d'interagir avec des fichiers ou d'engendrer d'autres instances de lui-même (sous-agents).
  3. Exécution : Effectuer les actions prévues, souvent en utilisant des outils ou des ressources externes comme les navigateurs Web ou les systèmes de fichiers.
  4. Autocritique et perfectionnement : Analyser les résultats de ses actions, identifier les erreurs ou les inefficacités, et ajuster le plan en conséquence. Ce processus itératif est crucial pour sa nature autonome.
  5. Gestion de la mémoire : Utiliser la mémoire à court terme pour le contexte immédiat et potentiellement utiliser des bases de données vectorielles ou des fichiers locaux pour le stockage et la récupération d'informations à plus long terme, en l'aidant à maintenir la cohérence à travers des tâches complexes. Cela concerne des concepts tels que les bases de données vectorielles.

Cette approche permet à Auto-GPT de s'attaquer à des problèmes plus ouverts que les modèles traditionnels d'apprentissage machine (ML) qui sont généralement formés pour des tâches spécifiques telles que la classification d'images ou la génération de texte.

Caractéristiques principales

Auto-GPT a attiré l'attention en raison de plusieurs caractéristiques inédites pour un projet open-source au moment de sa sortie :

  • Fonctionnement autonome : Conçu pour fonctionner de façon largement indépendante une fois qu'on lui a donné un objectif, ce qui réduit la nécessité d'une intervention humaine constante.
  • Connectivité Internet : Capacité à accéder à l'Internet pour la collecte d'informations et la recherche, cruciales pour résoudre les problèmes du monde réel.
  • Capacités de mémoire : Mécanismes de rétention des informations dans le temps, lui permettant d'apprendre des actions passées au cours d'une session.
  • Génération de tâches : Crée dynamiquement de nouvelles tâches en fonction de l'objectif global et des résultats des actions précédentes.
  • Extensibilité : Possibilité d'intégrer divers plugins et API externes pour étendre ses capacités. Le projet original Auto-GPT sur GitHub présente son architecture.

Applications et exemples concrets

Bien qu'elle soit encore très expérimentale et parfois sujette à des erreurs ou à des inefficacités comme le fait de rester bloquée dans des boucles ou de produire des hallucinations, l'Auto-GPT démontre des applications potentielles dans divers domaines :

  • Recherche automatisée : Étant donné un sujet, il pourrait potentiellement faire des recherches sur le web, synthétiser des informations provenant de plusieurs sources et compiler un rapport. Par exemple, un utilisateur pourrait lui confier la tâche suivante : "Effectuer des recherches sur les dernières tendances en matière d'IA de pointe pour la vision par ordinateur et résumer les principales conclusions dans un document." Auto-GPT planifierait alors des étapes telles que l'identification de mots-clés pertinents, la réalisation de recherches sur le Web, l'extraction d'informations à partir d'articles et la rédaction d'un résumé.
  • Génération de code et débogage : Il pourrait tenter d'écrire des scripts simples ou de déboguer du code existant en fonction des besoins. Par exemple, un utilisateur pourrait lui demander d'"écrire un script Python pour récupérer les titres d'un site Web d'actualités et les enregistrer dans un fichier CSV." Auto-GPT générerait le code, le testerait potentiellement et tenterait de corriger les erreurs en fonction des résultats ou des messages d'erreur, un processus lié à l'apprentissage automatique de la machine (AutoML).
  • Gestion des tâches complexes : Décomposer les tâches à multiples facettes comme la planification d'un événement ou la gestion d'un petit projet en éléments constitutifs et suivre les progrès.
  • Création de contenu : Générer divers formats de contenu, tels que des textes de marketing, des courriels ou des incitations à l'écriture créative, en faisant des recherches et en itérant.

Auto-GPT en contexte

Auto-GPT diffère considérablement des autres modèles et outils d'IA :

  • Chatbots standards : Alors que les chatbots comme ChatGPT (souvent alimentés par des modèles comme GPT-3 ou GPT-4) répondent aux invites de l'utilisateur, Auto-GPT vise à poursuivre de manière proactive un objectif en plusieurs étapes, ce qui nécessite moins d'interaction tour par tour. Les chatbots excellent dans la conversation, tandis que l'Auto-GPT se concentre sur l'exécution autonome des tâches.
  • Modèles spécifiques à une tâche : Modèles comme Ultralytics YOLO sont hautement spécialisés pour des tâches telles que la détection d'objets en temps réel, la segmentation d'instances ou l'estimation de la pose. Ces modèles nécessitent une direction humaine pour être intégrés dans des flux de travail plus importants, souvent gérés par des plateformes comme Ultralytics HUB pour la formation, le déploiement et la surveillance. Auto-GPT, à l'inverse, tente de gérer de façon autonome son propre flux de travail vers un objectif plus large, en opérant à un niveau d'abstraction plus élevé que les modèles de perception tels que YOLO11. Tu peux explorer les mesures de performance deYOLO pour comprendre comment les modèles spécialisés sont évalués.
  • Cadres d'agents : Des outils comme LangChain fournissent des bibliothèques et des composants pour construire des applications LLM sophistiquées, y compris des agents. Auto-GPT peut être considéré comme une mise en œuvre spécifique et précoce d'un concept d'agent autonome, tandis que LangChain offre des blocs de construction plus flexibles pour les développeurs qui créent des systèmes agentiques personnalisés, impliquant potentiellement une ingénierie et un ajustement rapides.
  • L'intelligence générale artificielle (AGI) : L'Auto-GPT représente un pas vers des systèmes d'IA plus indépendants, mais est loin de l'intelligence générale artificielle (AGI), qui implique des capacités cognitives de type humain dans un large éventail de tâches. Il est préférable de la classer dans la catégorie de l'intelligence artificielle restreinte (ANI), bien qu'elle ait un champ d'application plus large que de nombreux systèmes d'ANI traditionnels. Ce développement soulève des discussions sur l'éthique de l'IA et le développement responsable de l'IA.

Bien qu'un déploiement pratique et fiable reste un défi, Auto-GPT a suscité un intérêt significatif et des recherches sur les agents d'IA autonomes et les possibilités futures de l'IA générative. Les cadres et les modèles continuent d'évoluer, en s'appuyant sur les concepts démontrés par les premières expériences comme Auto-GPT, en tirant souvent parti d'architectures sous-jacentes comme le Transformer et en les hébergeant sur des plates-formes telles que Hugging Face.

Tout lire