Descubra Auto-GPT: una IA de código abierto que se auto-indica para lograr objetivos de forma autónoma, abordar tareas y revolucionar la resolución de problemas.
Auto-GPT es una aplicación experimental de código abierto que muestra las capacidades de los agentes de IA al permitirles funcionar de forma autónoma. de los agentes de IA al permitirles funcionar de forma autónoma. Funciona con grandes modelos lingüísticos (LLM) como el GPT-4 de OpenAI, Auto-GPT se diferencia de los chatbots se diferencia de los chatbots estándar por su capacidad de autoaprendizaje. En lugar de requerir la intervención continua del usuario para guiar una conversación, toma un único objetivo de alto nivel y lo desglosa en dos partes. objetivo de alto nivel y lo divide en una serie de subtareas. A continuación, ejecuta estas tareas, critica su propio y repite la operación hasta alcanzar el objetivo. Este cambio representa una evolución hacia sistemas de inteligencia artificial capaces de resolver problemas complejos con una intervención humana mínima.
La funcionalidad principal de Auto-GPT se basa en un bucle recursivo de "pensamientos", "razonamiento", "planificación" y "acción". "planificación" y "acción". Cuando se le asigna un objetivo, el sistema utiliza el modelo base subyacente para generar un plan paso a paso. subyacente para generar un plan paso a paso. Para simular el razonamiento para simular el razonamiento, lo que le permite analizar el contexto y determinar las acciones necesarias.
Para ejecutar estos planes, Auto-GPT está equipado con acceso a Internet para recopilar información, capacidades de gestión de archivos para leer y escribir datos, y herramientas de gestión de memoria. de archivos para leer y escribir datos, y herramientas de gestión de memoria, que a menudo utilizan una base de datos vectorial para conservar el contexto a largo plazo. base de datos vectorial para conservar el contexto a largo plazo. Este supera las limitaciones de una ventana ventana de contexto estándar en los LLM, permitiendo al agente recordar pasos anteriores y perfeccionar su estrategia. Los desarrolladores pueden explorar el código fuente en el repositorio GitHub de AutoGPT para entender cómo interactúan componentes interactúan.
Auto-GPT demuestra cómo puede aplicarse la IA Generativa puede aplicarse para realizar tareas prácticas en lugar de limitarse a generar texto.
Mientras que Auto-GPT procesa principalmente texto, los agentes modernos son cada vez más multimodales e interactúan con el mundo físico a través de la visión por ordenador (CV). físico a través de la visión por ordenador (VC). Un agente puede utilizar un modelo de visión para "ver" su entorno antes de tomar una decisión.
El siguiente ejemplo muestra cómo un script Python , que funciona como un simple componente de agente, puede utilizar Ultralytics YOLO11 para detect objetos y decidir una acción basada en la información visual.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the agent's "vision"
model = YOLO("yolo11n.pt")
# Run inference on an image to perceive the environment
results = model("office_space.jpg")
# Agent Logic: Check for people to determine if lights should be on
# Class ID 0 typically corresponds to 'person' in COCO datasets
if any(box.cls == 0 for box in results[0].boxes):
print("Agent Decision: Occupants detected. Keeping lights ON.")
else:
print("Agent Decision: Room empty. Switching lights OFF to save energy.")
Es importante distinguir Auto-GPT de otros términos del ecosistema de la IA:
A pesar de su potencial, Auto-GPT se enfrenta a retos como los elevados costes operativos debido a las frecuentes API a proveedores como OpenAI. Además, los agentes a veces pueden entrar en bucles infinitos o sufrir alucinación en los LLM, en los que elaboran planes incorrectos basados en información falsa.
Las iteraciones futuras pretenden integrar técnicas de aprendizaje por refuerzo precisión en la toma de decisiones. A medida que estos agentes evolucionen, es probable que se conviertan en elementos centrales de la Internet de las Cosas (IoT) gestionando redes complejas de dispositivos y flujos de datos de forma autónoma.