Découvrez Auto-GPT : une IA open source qui s'auto-invite à atteindre des objectifs de manière autonome, à s'attaquer à des tâches et à révolutionner la résolution de problèmes.
Auto-GPT est une application expérimentale à code source ouvert qui met en évidence les capacités des agents d'IA en leur permettant de fonctionner de manière autonome. agents d'intelligence artificielle en leur permettant de fonctionner de manière autonome. Elle s'appuie sur de grands modèles de langage (LLM ) tels que le GPT-4 d'OpenAI, Auto-GPT se différencie des chatbots standard par sa standard par sa capacité à s'autopromouvoir. Au lieu d'exiger une contribution continue de l'utilisateur pour guider une conversation, il prend un seul objectif de haut niveau et le décompose en plusieurs parties. un seul objectif de haut niveau et le décompose en une série de sous-tâches. Il exécute ensuite ces tâches, critique ses propres performances et itère jusqu'à ce que l'objectif soit atteint. et itère jusqu'à ce que l'objectif soit atteint. Ce changement représente une évolution vers des systèmes d'IA agentique capables de résoudre des problèmes complexes avec une intervention humaine minimale.
La fonctionnalité principale d'Auto-GPT repose sur une boucle récursive de "pensées", "raisonnement", "planification" et "action". "planification" et "action". Lorsqu'un objectif lui est assigné, le système utilise le modèle de base sous-jacent pour générer un plan étape par étape. modèle de base sous-jacent pour générer un plan étape par étape. Il utilise l'incitation à la chaîne de pensée pour simuler le raisonnement, ce qui lui permet d'établir un plan étape par étape. simuler le raisonnement, ce qui lui permet d'analyser le contexte et de déterminer les actions nécessaires.
Pour exécuter ces plans, l'Auto-GPT est équipé d'un accès à Internet pour la collecte d'informations, de capacités de gestion de fichiers pour la lecture et l'écriture de données, et d'outils de gestion de la mémoire, utilisant souvent une base de données vectorielle pour conserver le contexte à long terme. base de données vectorielles pour conserver le contexte à long terme. Cela permet de surmonter les limites d'une base de données vectorielle standard. permet de surmonter les limites d'une fenêtre de standard des LLM, ce qui permet à l'agent de se rappeler les étapes précédentes et d'affiner sa stratégie. les étapes précédentes et d'affiner sa stratégie. Les développeurs peuvent explorer le code source sur le dépôt GitHub d AutoGPT GitHub pour comprendre comment ces composants interagissent. composants interagissent.
Auto-GPT démontre comment l 'IA générative peut être peut être appliquée pour effectuer des tâches exploitables plutôt que de simplement générer du texte.
Alors que l'Auto-GPT traite principalement du texte, les agents modernes sont de plus en plus multimodaux et interagissent avec le monde physique par le biais de la vision par ordinateur (VPI). physique par le biais de la vision par ordinateur (VPI). Un agent peut utiliser un modèle de vision pour "voir" son environnement avant de prendre une décision.
L'exemple suivant montre comment un script Python , fonctionnant comme un simple composant d'agent, peut utiliser la fonction Ultralytics YOLO11 pour detect objets et décider d'une action sur la base d'une entrée visuelle.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the agent's "vision"
model = YOLO("yolo11n.pt")
# Run inference on an image to perceive the environment
results = model("office_space.jpg")
# Agent Logic: Check for people to determine if lights should be on
# Class ID 0 typically corresponds to 'person' in COCO datasets
if any(box.cls == 0 for box in results[0].boxes):
print("Agent Decision: Occupants detected. Keeping lights ON.")
else:
print("Agent Decision: Room empty. Switching lights OFF to save energy.")
Il est important de distinguer Auto-GPT des autres termes de l'écosystème de l'IA :
Malgré son potentiel, l'Auto-GPT est confronté à des défis tels que des coûts opérationnels élevés dus à de fréquents appels d'API à des fournisseurs tels qu'OpenAI. fréquents à des fournisseurs comme OpenAI. En outre, les agents peuvent parfois entrer dans des boucles infinies ou souffrir de hallucination dans les LLM, où ils conçoivent des plans plans incorrects basés sur de fausses informations.
Les itérations futures visent à intégrer des techniques d'apprentissage par renforcement plus robustes afin d'améliorer la qualité de l'information. techniques d'apprentissage par renforcement plus robustes la précision de la prise de décision. Au fur et à mesure que ces agents évolueront, ils deviendront probablement un élément central de l'Internet des objets (IoT). Internet des objets (IoT) en gérant de manière autonome des réseaux complexes d'appareils et de flux de données.