استكشف GPT-3، نموذج LLM القوي من OpenAI الذي يحتوي على 175 مليار معلمة. تعرف على بنيته ومهام NLP وكيفية إقرانه مع Ultralytics لتطبيقات الرؤية واللغة.
Generative Pre-trained Transformer 3، المعروف باسم GPT-3، هو نموذج لغوي كبير متطور (LLM) طورته OpenAI ويستخدم التعلم العميق لإنتاج نصوص تشبه النصوص البشرية. باعتباره نموذجًا من الجيل الثالث في سلسلة GPT، فقد مثل قفزة كبيرة إلى الأمام في قدرات معالجة اللغة الطبيعية (NLP) عند إصداره. من خلال معالجة النص المدخل وتوقع الكلمة التالية الأكثر احتمالًا في التسلسل، يمكن لـ GPT-3 أداء مجموعة متنوعة من المهام — من كتابة المقالات والرموز إلى ترجمة اللغات — دون الحاجة إلى تدريب محدد لكل مهمة على حدة، وهي قدرة تُعرف باسم التعلم السريع.
تم بناء GPT-3 على بنية Transformer، مع استخدام هيكل مخصص للفك فقط. وهو ضخم الحجم، ويتميز بـ 175 مليار معلمة تعلم آلي ، مما يسمح له بالتقاط الفروق الدقيقة في اللغة والسياق والنحو بدقة عالية. يخضع النموذج لتعلم مكثف غير خاضع للإشراف على مجموعة ضخمة من البيانات النصية من الإنترنت، بما في ذلك الكتب والمقالات والمواقع الإلكترونية.
أثناء الاستدلال، يتفاعل المستخدمون مع النموذج عبر هندسة المطالبات. من خلال توفير مدخلات نصية منظمة، يوجه المستخدمون النموذج لتوليد مخرجات محددة، مثل تلخيص وثيقة فنية أو طرح أفكار إبداعية.
تتيح تعددية استخدامات GPT-3 إمكانية تشغيل العديد من التطبيقات في مختلف الصناعات.
على الرغم من أن GPT-3 هو نموذج قائم على النص، إلا أنه غالبًا ما يعمل كـ"دماغ" في خطوط الإنتاج التي تبدأ بـ الرؤية الحاسوبية (CV). يتضمن سير العمل الشائع استخدام كاشف كائنات عالي السرعة لتحليل الصورة، ثم إدخال نتائج الكشف في GPT-3 لإنشاء وصف سردي أو تقرير أمان.
يوضح المثال التالي كيفية استخدام نموذج Ultralytics detect وتنسيق الإخراج كمسودة نصية مناسبة لـ LLM:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for real-time edge performance)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to create a context string
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = f"The image contains: {', '.join(detected_classes)}."
# This string can now be sent to GPT-3 for further processing
print(f"LLM Prompt: {context_string} Describe the potential activity.")
لفهم مكانة GPT-3 في مجال الذكاء الاصطناعي، لا بد من تمييزها عن التقنيات المماثلة:
على الرغم من قوته، فإن GPT-3 يستهلك موارد كثيرة، ويتطلب وحدات معالجة رسومات قوية ليعمل بكفاءة. كما أنه يواجه تحديات مع الهلوسة في نماذج اللغة الكبيرة (LLMs)، حيث يقدم النموذج بثقة حقائق غير صحيحة. علاوة على ذلك، يجب على المستخدمين الانتباه إلى أخلاقيات الذكاء الاصطناعي، حيث يمكن للنموذج أن يعيد إنتاج التحيز الخوارزمي الموجود في بيانات التدريب الخاصة به دون قصد.
يمكن للمطورين الذين يسعون إلى بناء خطوط أنابيب معقدة تشمل الرؤية واللغة الاستفادة من Ultralytics لإدارة مجموعات البيانات الخاصة بهم وتدريب نماذج الرؤية المتخصصة قبل دمجها مع واجهات برمجة تطبيقات LLM. لفهم أعمق للآليات الأساسية، توفر الورقة البحثية الأصلية " نماذج اللغة هي متعلمون قليلو التدريب " تفاصيل تقنية شاملة.