استكشف أساسيات GPT (Generative Pre-trained Transformer). تعرف على كيفية عمل هذه النماذج وكيفية دمجها مع Ultralytics للرؤية.
يشير GPT (Generative Pre-trained Transformer) إلى مجموعة من نماذج الشبكات العصبية المصممة لتوليد نصوص شبيهة بالبشرية وحل المهام المعقدة من خلال توقع العنصر التالي في تسلسل ما. تم بناء هذه النماذج على بنية Transformer، باستخدام كتل فك التشفير التي تسمح لها بمعالجة البيانات بشكل متوازٍ بدلاً من معالجتها بشكل تسلسلي. يشير مصطلح "Pre-trained" إلى أن النموذج يخضع لمرحلة أولية من التعلم غير الخاضع للإشراف على مجموعات بيانات ضخمة —تشمل الكتب والمقالات والمواقع الإلكترونية—لتعلم البنية الإحصائية للغة. يشير مصطلح "Generative" إلى القدرة الأساسية للنموذج: إنشاء محتوى جديد بدلاً من مجرد تصنيف المدخلات الموجودة.
في قلب نموذج GPT يكمن آلية الانتباه، وهي تقنية رياضية تسمح للشبكة بتقييم أهمية الكلمات المختلفة في الجملة بالنسبة لبعضها البعض. تتيح هذه الآلية للنموذج فهم السياق والفروق الدقيقة والتبعيات بعيدة المدى، مثل معرفة أن الضمير في نهاية الفقرة يشير إلى اسم مذكور في البداية.
بعد التدريب الأولي، تخضع هذه النماذج عادةً للتحسين لتخصيصها لمهام محددة أو لمواءمتها مع القيم الإنسانية. غالبًا ما تُستخدم تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) لضمان أن النموذج ينتج استجابات آمنة ومفيدة ودقيقة. هذه العملية المكونة من خطوتين — التدريب المسبق العام متبوعًا بضبط دقيق محدد — هي ما يجعل نماذج GPT نماذج أساسية متعددة الاستخدامات .
لقد تجاوزت نماذج GPT مرحلة البحث النظري لتصبح أدوات عملية يومية في مختلف الصناعات.
بينما يتفوق GPT في معالجة اللغة الطبيعية (NLP)، غالبًا ما يتم دمجه مع الرؤية الحاسوبية (CV) لإنشاء أنظمة متعددة الوسائط . يتضمن سير العمل الشائع استخدام كاشف عالي السرعة مثل Ultralytics لتحديد الكائنات في الصورة، ثم تغذية هذا الناتج المنظم في نموذج GPT لإنشاء سرد وصفي.
يوضح المثال التالي كيفية استخراج أسماء الكائنات باستخدام YOLO26 لإنشاء سلسلة سياق لموجه GPT :
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]
# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")
من المفيد التمييز بين GPT والبنى الشائعة الأخرى لفهم دورها المحدد.
على الرغم من قدراتها المذهلة، تواجه نماذج GPT تحديات مثل الهلوسة، حيث تقوم بثقة بإنتاج معلومات خاطئة. يعمل الباحثون بنشاط على تحسين أخلاقيات الذكاء الاصطناعي وبروتوكولات السلامة. علاوة على ذلك، فإن دمج GPT مع أدوات مثل Ultralytics يسمح بإنشاء خطوط إنتاج أكثر قوة حيث تعمل نماذج الرؤية واللغة بشكل متناسق لحل المشكلات المعقدة في العالم الحقيقي.