اكتشف Auto-GPT: ذكاء اصطناعي مفتوح المصدر يطالب نفسه ذاتيًا لتحقيق الأهداف بشكل مستقل ومعالجة المهام وإحداث ثورة في حل المشكلات.
تطبيق Auto-GPT هو تطبيق تجريبي مفتوح المصدر يعرض قدرات وكلاء الذكاء الاصطناعي من خلال تمكينهم من العمل بشكل مستقل. مدعوم من نماذج اللغة الكبيرة (LLMs) مثل OpenAI's GPT-4، يميّز Auto-GPT نفسه عن روبوتات الدردشة الآلية القياسية عن روبوتات الدردشة الآلية القياسية من خلال قدرتها على الطلب الذاتي. فبدلاً من طلب مدخلات مستمرة من المستخدم لتوجيه المحادثة، فإنه يأخذ هدفاً واحداً عالي المستوى ويقسمه إلى سلسلة من المهام الفرعية. ثم تقوم بتنفيذ هذه المهام، وتنتقد أداءها ويكرر ذلك حتى يتحقق الهدف. يمثل هذا التحول خطوة نحو أنظمة ذكاء اصطناعي عميلة قادرة على حل المشاكل المعقدة بأقل قدر من التدخل البشري.
تعتمد الوظيفة الأساسية ل Auto-GPT على حلقة تكرارية من "الأفكار" و"التفكير" و"التفكير" و "التخطيط" و"العمل". عندما يتم تعيين هدف ما، يستخدم النظام نموذج الأساس الأساسي الأساسي لتوليد خطة خطوة بخطوة. ويستخدم موجهات سلسلة الأفكار من أجل محاكاة التفكير، مما يسمح له بتحليل السياق وتحديد الإجراءات اللازمة.
ولتنفيذ هذه الخطط، يتم تجهيز GPT التلقائي مزود بإمكانية الوصول إلى الإنترنت لجمع المعلومات، وإدارة الملفات قدرات لقراءة وكتابة البيانات، وأدوات إدارة الذاكرة، وغالبًا ما تستخدم قاعدة بيانات متجهة للاحتفاظ بالسياق طويل المدى. هذا يتغلب على قيود نافذة السياق القياسية السياق القياسي في الآليات ذات المستوى المنخفض، مما يمكّن الوكيل من استرجاع الخطوات السابقة وتحسين استراتيجيته. يمكن للمطوّرين استكشاف الشيفرة المصدرية على على مستودع GitHub الخاص ب AutoGPT لفهم كيفية تفاعل هذه هذه المكونات.
يوضح الذكاء الاصطناعي التوليدي التلقائي كيف يمكن تطبيق الذكاء الاصطناعي التوليدي لأداء مهام قابلة للتنفيذ بدلاً من مجرد توليد النصوص.
بينما يعالج برنامج GPT التلقائي النصوص في المقام الأول، فإن الوكلاء الحديثين متعددي الوسائط بشكل متزايد، ويتفاعلون مع العالم المادي مع العالم المادي من خلال الرؤية الحاسوبية (CV). قد يستخدم الوكيل قد يستخدم نموذج رؤية "لرؤية" بيئته قبل اتخاذ القرار.
يوضّح المثال التالي كيف يمكن لبرنامج نصي من Python - الذي يعمل كمكوّن عامل بسيط - استخدام Ultralytics YOLO11detect الأجسام واتخاذ قرار بشأن إجراء ما بناءً على المدخلات المرئية.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the agent's "vision"
model = YOLO("yolo11n.pt")
# Run inference on an image to perceive the environment
results = model("office_space.jpg")
# Agent Logic: Check for people to determine if lights should be on
# Class ID 0 typically corresponds to 'person' in COCO datasets
if any(box.cls == 0 for box in results[0].boxes):
print("Agent Decision: Occupants detected. Keeping lights ON.")
else:
print("Agent Decision: Room empty. Switching lights OFF to save energy.")
من المهم التمييز بين الذكاء الاصطناعي التلقائي - GPT التلقائي والمصطلحات الأخرى في منظومة الذكاء الاصطناعي:
على الرغم من إمكانياتها، إلا أنها تواجه تحديات مثل ارتفاع التكاليف التشغيلية بسبب كثرة مكالمات واجهة برمجة التطبيقات المتكررة إلى مزودي الخدمة مثل OpenAI. بالإضافة إلى ذلك، يمكن للوكلاء يمكن أن يدخلوا أحياناً في حلقات لا نهائية أو يعانون من من الهلوسة في الآليات ذاتية التحكم، حيث يضعون خططاً غير صحيحة بناءً على معلومات خاطئة.
تهدف التكرارات المستقبلية إلى دمج تقنيات أكثر قوة تقنيات تعلم معززة أكثر قوة لتحسين دقة اتخاذ القرار. مع تطور هذه العوامل، من المرجح أن تصبح محورية في إنترنت الأشياء (IoT) وإدارة شبكات معقدة من الأجهزة وتدفقات البيانات بشكل مستقل.