استكشف GPT-4، وهو نظام ذكاء اصطناعي متقدم متعدد الوسائط من OpenAI، يتفوق في المهام النصية والمرئية، والاستدلال المعقد، والتطبيقات الواقعية مثل الرعاية الصحية والتعليم.
GPT-4 (المحول التوليدي المدرب مسبقاً GPT-4) هو نموذج متطور كبير متعدد الوسائط (LMM) تم تطويره بواسطة OpenAI الذي يمثل علامة فارقة في مجال الذكاء الاصطناعي (AI). وباعتباره خلفًا لنموذج GPT-3 المستخدم على نطاق واسع، فإن GPT-4 يوسع نطاق قدرات نماذج اللغة الكبيرة (LLMs) القياسية عن طريق قبول ليس فقط النصوص، ولكن أيضًا مدخلات الصور. هذه القدرة على معالجة البيانات المرئية وتفسيرها إلى جانب المعلومات النصية تسمح لها بأداء مهام معقدة تسد الفجوة بين معالجة اللغات الطبيعية (NLP) والفهم البصري، مما يجعله نموذجًا أساسيًا قويًا نموذجًا أساسيًا قويًا لتطبيقات متنوعة.
بُنيت GPT-4 على بنية المحول القابلة للتطوير، وتقدم GPT-4 يقدم العديد من التطورات المعمارية والتدريبية المفصلة في تقريره التقني. تمكّن هذه التحسينات النموذج من إظهار أداءً على المستوى البشري على مختلف المعايير المهنية والأكاديمية.
أدى تعدد استخدامات GPT-4 إلى تكاملها في العديد من القطاعات، مما أدى إلى دفع الابتكار في الذكاء الاصطناعي التوليدي.
من الأهمية بمكان التمييز بين نموذج LMM للأغراض العامة مثل GPT-4 ونماذج نماذج الرؤية الحاسوبية (CV) المتخصصة. بينما يمكن لنموذج GPT-4 وصف الصورة، إلا أنها مكلفة حسابياً وغير محسّنة للتوطين الدقيق عالي السرعة المطلوب في سيناريوهات الاستدلال في الوقت الحقيقي في سيناريوهات الاستدلال في الوقت الحقيقي.
في المقابل، نماذج مثل YOLO11 مصممة خصيصًا لمهام مثل اكتشاف الكائنات و تجزئة الصور. يوفر نموذج YOLO إحداثيات إحداثيات الصندوق المحيطية الدقيقة وتسميات الفئات في ميلي ثانية، مما يجعله مثاليًا لتحليلات الفيديو أو الأنظمة المستقلة. تهدف التكرارات المستقبلية مثل YOLO26 القادمة إلى دفع حدود السرعة و والدقة على الأجهزة المتطورة.
في كثير من الأحيان، تعمل هذه التقنيات بشكل أفضل جنبًا إلى جنب: يمكن لنموذج YOLO أن يستخرج البيانات المهيكلة (الأجسام و والمواقع) من موجز فيديو، والتي يتم تمريرها بعد ذلك إلى GPT-4 لتوليد ملخص بلغة طبيعية للمشهد.
يوضح المثال التالي كيفية استخدام ultralytics لاستخراج أسماء الكائنات المكتشفة، والتي يمكن
بعد ذلك إلى نموذج مثل GPT-4 لتوليد السرد.
from collections import Counter
from ultralytics import YOLO
# Load the YOLO11 model for efficient object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for text processing
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
object_counts = dict(Counter(detected_classes))
# Output structured data suitable for a GPT-4 prompt
print(f"Scene Objects for GPT Analysis: {object_counts}")
يختلف GPT-4 اختلافًا جوهريًا عن نماذج التشفير فقط مثل BERT. يساعد نموذج BERT الآلات على "فهم" النص من خلال النظر إلى السياق ثنائي الاتجاه (مفيد ل لتحليل المشاعر)، في حين أن GPT-4 هو نموذج قائم على نموذج قائم على وحدة فك التشفير المحسّنة من أجل توليد النص والتنبؤ بالرمز التالي في التسلسل. بالإضافة إلى ذلك، غالبًا ما تستخدم برامج الذكاء الاصطناعي الحديثة GPT-4 ك "دماغ" لتقسيم الأهداف المعقدة إلى خطوات قابلة للتنفيذ، وهي قدرة تسهلها بنية البنية المنطقية المتقدمة.