استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

نظرة متعمقة في قدرات نموذج GPT-4o Mini من OpenAI

أبيرامي فينا

6 دقائق قراءة

25 يوليو، 2024

استكشف ميزات وتطبيقات GPT-4o Mini. أحدث نموذج من OpenAI والأكثر فعالية من حيث التكلفة، يوفر قدرات ذكاء اصطناعي متقدمة بتكلفة أقل بنسبة 60٪ من GPT-3.5 Turbo.

في مايو 2024، أطلقت OpenAI نموذج GPT-4o، والآن، بعد ثلاثة أشهر فقط، عادت بنموذج آخر مثير للإعجاب: GPT-4o Mini. في 18 يوليو 2024، قدمت OpenAI نموذج GPT-4o Mini. إنهم يصفونه بأنه “النموذج الأكثر فعالية من حيث التكلفة”! GPT-4o Mini هو نموذج مضغوط يعتمد على قدرات النماذج السابقة ويهدف إلى جعل الذكاء الاصطناعي المتقدم أكثر سهولة وميسور التكلفة.

يدعم GPT-4o Mini حاليًا التفاعلات النصية والمرئية، مع توقع إضافة تحديثات مستقبلية لإمكانيات التعامل مع الصور ومقاطع الفيديو والصوت. في هذه المقالة، سوف نستكشف ماهية GPT-4o Mini، وميزاته البارزة، وكيف يمكن استخدامه، والاختلافات بين GPT-4 و GPT-4o Mini، وكيف يمكن استخدامه في حالات استخدام رؤية الكمبيوتر المختلفة. هيا بنا نتعمق ونرى ما يقدمه GPT-4o Mini!

ما هو GPT-4o Mini؟

GPT-4o Mini هو أحدث إضافة إلى مجموعة نماذج الذكاء الاصطناعي من OpenAI، وهو مصمم ليكون أكثر فعالية من حيث التكلفة وسهولة في الوصول إليه. إنه نموذج لغوي كبير (LLM) متعدد الوسائط، مما يعني أنه يمكنه معالجة وإنشاء أنواع مختلفة من البيانات، مثل النصوص والصور ومقاطع الفيديو والصوت. يعتمد النموذج على نقاط القوة في النماذج السابقة مثل GPT-4 و GPT-4o لتقديم قدرات قوية في حزمة مضغوطة. 

يعد GPT-4o Mini أرخص بنسبة 60٪ من GPT-3.5 Turbo، حيث تبلغ تكلفته 15 سنتًا لكل مليون رمز إدخال (وحدات النص أو البيانات التي يعالجها النموذج) و 60 سنتًا لكل مليون رمز إخراج (الوحدات التي ينشئها النموذج استجابةً). ولوضع ذلك في نصابه الصحيح، فإن مليون رمز يعادل تقريبًا معالجة 2500 صفحة من النص. بفضل نافذة سياق تبلغ 128 ألف رمز والقدرة على التعامل مع ما يصل إلى 16 ألف رمز إخراج لكل طلب، تم تصميم GPT-4o Mini ليكون فعالاً وميسور التكلفة.

__wf_reserved_inherit
الشكل 1. GPT-4o Mini أرخص بنسبة 60٪ من GPT-3.5 Turbo.

الميزات الرئيسية لـ GPT-4o Mini 

يدعم GPT-4o Mini مجموعة من المهام التي تجعله خيارًا رائعًا لمختلف التطبيقات. يمكن استخدامه عند تشغيل عدة عمليات في وقت واحد، مثل استدعاء واجهات برمجة التطبيقات المتعددة (APIs)، والتعامل مع كميات كبيرة من البيانات مثل قواعد التعليمات البرمجية الكاملة أو سجلات المحادثات، وتقديم استجابات سريعة وفورية في برامج الدردشة الآلية لدعم العملاء.

فيما يلي بعض الميزات الرئيسية الأخرى:

  • قاعدة معرفة محدثة: يحتوي النموذج على معلومات حتى أكتوبر 2023.
  • محلل رموز مُحسَّن: يجعل GPT-4o Mini معالجة النصوص غير الإنجليزية أكثر فعالية من حيث التكلفة.
  • تدابير سلامة قوية: تتضمن هذه التدابير تصفية المحتوى الضار والحماية من المشكلات الأمنية مثل حقن المطالبات والتلاعب بالنظام.

البدء في استخدام GPT-4o Mini 

يمكنك محاولة استخدام GPT-4o Mini من خلال واجهة ChatGPT. وهو متاح لمستخدمي Free و Plus و Team، ليحل محل GPT-3.5 كما هو موضح أدناه. سيتمكن مستخدمو Enterprise أيضًا من الوصول إليه قريبًا، تماشيًا مع هدف OpenAI المتمثل في توفير فوائد الذكاء الاصطناعي للجميع. يتوفر GPT-4o Mini أيضًا من خلال واجهة برمجة التطبيقات (API) للمطورين الذين يرغبون في دمج قدراته في تطبيقاتهم. في الوقت الحالي، لا يمكن الوصول إلى إمكانات الرؤية إلا من خلال واجهة برمجة التطبيقات.

__wf_reserved_inherit
الشكل 2. خيارات النماذج داخل ChatGPT.

الفرق بين GPT-4o و GPT-4o Mini 

يقدم كل من GPT-4o Mini و GPT-4o أداءً مثيرًا للإعجاب عبر مختلف المعايير. في حين أن GPT-4o يتفوق عمومًا على GPT-4o Mini، إلا أن GPT-4o Mini لا يزال حلاً فعالاً من حيث التكلفة للمهام اليومية. تتضمن المعايير مهام الاستدلال والكفاءة في الرياضيات والبرمجة والاستدلال متعدد الوسائط. كما هو موضح في الصورة أدناه، فإن GPT-4o Mini يسجل أداءً عاليًا جدًا عند مقارنته بالنماذج الشائعة الأخرى.

__wf_reserved_inherit
الشكل 3. مقارنة GPT-4o Mini بالنماذج الشائعة الأخرى.

تجربة GPT-4o و GPT-4o Mini عمليًا

هناك مطالبة مثيرة للاهتمام تتم مناقشتها عبر الإنترنت تتضمن نماذج لغوية كبيرة شائعة تقارن الأرقام العشرية بشكل غير صحيح. عندما وضعنا GPT-4o و GPT-4o Mini قيد الاختبار، أظهرت قدراتهما على الاستدلال اختلافات واضحة. في الصورة أدناه، سألنا كلا النموذجين عن الأكبر: 9.11 أو 9.9، ثم طلبنا منهما شرح منطقهما.

__wf_reserved_inherit
الشكل 4. اختبار GPT-4o و GPT-4o Mini.

يستجيب كلا النموذجين في البداية بشكل غير صحيح ويدعيان أن 9.11 أكبر. ومع ذلك، فإن GPT-4o قادر على تبرير طريقه للوصول إلى الإجابة الصحيحة ويذكر أن 9.9 أكبر. ويقدم شرحًا تفصيليًا ويقارن الكسور العشرية بدقة. في المقابل، يصر GPT-4o Mini بعناد على إجابته الخاطئة الأولية على الرغم من اكتشافه المنطق وراء كون 9.9 أكبر بشكل صحيح.

يظهر كلا النموذجين مهارات استدلال قوية. إن قدرة GPT-4o على تصحيح نفسه تجعله متفوقًا ومفيدًا للمهام الأكثر تعقيدًا. لا يزال GPT-4o Mini، على الرغم من كونه أقل قدرة على التكيف، يقدم استدلالًا واضحًا ودقيقًا للمهام الأبسط. 

استخدام GPT-4o Mini في حالات استخدام رؤية الكمبيوتر المختلفة

إذا كنت تفضل استكشاف قدرات الرؤية في GPT-4o Mini دون الخوض في التعليمات البرمجية، يمكنك بسهولة اختبار واجهة برمجة التطبيقات (API) على OpenAI Playground. لقد جربناها بأنفسنا لمعرفة مدى قدرة GPT-4o Mini على التعامل مع حالات استخدام مختلفة متعلقة برؤية الكمبيوتر.

تصنيف الصور باستخدام GPT-4o Mini

طلبنا من GPT-4o Mini تصنيف صورتين: إحداهما لفراشة والأخرى لخريطة. نجح نموذج الذكاء الاصطناعي في تحديد الفراشة والخريطة. هذه مهمة بسيطة إلى حد ما نظرًا لأن الصورتين مختلفتان تمامًا.

__wf_reserved_inherit
الشكل 5. تصنيف الصور بمساعدة GPT-4o Mini.

تابعنا ومررنا صورتين إضافيتين عبر النموذج: إحداهما تُظهر فراشة تستريح على نبات والأخرى تُظهر فراشة تستريح على الأرض. قام الذكاء الاصطناعي بعمل رائع مرة أخرى، حيث اكتشف بشكل صحيح الفراشة على النبات والفراشة على الأرض. لذلك، أخذناها خطوة أخرى إلى الأمام مرة أخرى.

__wf_reserved_inherit
الشكل 6. تصنيف صور متشابهة بمساعدة GPT-4o Mini.

ثم طلبنا من GPT-4o Mini تصنيف صورتين: إحداهما تُظهر فراشة تتغذى على أزهار نبات صقلاب المستنقعات والأخرى تُظهر فراشة تتغذى على زهرة زينيا. من المدهش أن النموذج كان قادرًا على تصنيف تصنيف محدد جدًا دون مزيد من الضبط الدقيق. تُظهر هذه الأمثلة السريعة أنه يمكن استخدام GPT-4o Mini في مهام تصنيف الصور دون الحاجة إلى تدريب مخصص.

__wf_reserved_inherit
الشكل 7. تصنيف صور مفصلة بمساعدة GPT-4o Mini.

فهم الأوضاع باستخدام GPT-4o Mini

حتى الآن، لا يمكن التعامل مع مهام رؤية الكمبيوتر مثل اكتشاف الكائنات و تجزئة المثيلات باستخدام GPT-4o Mini. يعاني GPT-4o من أجل الدقة، ولكن يمكن استخدامه لمثل هذه المهام. على غرار ذلك، فيما يتعلق بفهم الأوضاع، لا يمكننا اكتشاف أو تقدير الوضع في الصورة، ولكن يمكننا تصنيف وفهم الوضع.

__wf_reserved_inherit
الشكل 8. استخدام GPT-4o Mini لفهم الأوضاع في الصورة. 

توضح الصورة أعلاه كيف يمكن لـ GPT-4o Mini تصنيف وفهم الأوضاع، على الرغم من عدم قدرته على اكتشاف أو تقدير الإحداثيات الدقيقة للوضع. يمكن أن يكون هذا مفيدًا في تطبيقات مختلفة. على سبيل المثال، في تحليلات الرياضة، يمكنه تقييم حركات الرياضيين على نطاق واسع والمساعدة في منع الإصابات. وبالمثل، في العلاج الطبيعي، يمكنه المساعدة في مراقبة التمارين للتأكد من أن المرضى يقومون بالحركات الصحيحة أثناء إعادة التأهيل. أيضًا بالنسبة للمراقبة، يمكن أن يساعد في تحديد الأنشطة المشبوهة من خلال تحليل لغة الجسد العامة. في حين أن GPT-4o Mini لا يمكنه اكتشاف نقاط رئيسية محددة، إلا أن قدرته على تصنيف الأوضاع العامة تجعله مفيدًا في هذه المجالات وغيرها.

التطبيقات التي يناسبها GPT-4o Mini

لقد ألقينا نظرة على ما يمكن أن يفعله GPT-4o Mini. الآن، دعنا نناقش التطبيقات التي يكون من الأمثل فيها استخدام GPT-4o Mini.

يعد GPT-4o Mini رائعًا للتطبيقات التي تتطلب فهمًا متقدمًا للغة الطبيعية وتحتاج إلى مساحة حاسوبية صغيرة. فهو يجعل من الممكن دمج الذكاء الاصطناعي في التطبيقات التي عادة ما تكون باهظة التكلفة. في الواقع، يُظهر تحليل تفصيلي بواسطة Artificial Analysis أن GPT-4o Mini يقدم استجابات عالية الجودة بسرعات فائقة مقارنة بمعظم النماذج الأخرى.

__wf_reserved_inherit
الشكل 9. الجودة مقابل سرعة الإخراج لـ GPT-4o Mini.

فيما يلي بعض المجالات الرئيسية التي يمكن أن يتألق فيها في المستقبل:

  • المساعدون الظاهريون وبرامج الدردشة الآلية: يمكن لـ GPT-4o Mini تقديم استجابات سريعة وذكية لتحسين تفاعلات المستخدم.
  • الأدوات التعليمية: يمكن استخدام النموذج لبناء أدوات لتقديم دروس خصوصية مخصصة وإنشاء محتوى.
  • أدوات الإنتاجية: يمكنه تحسين المهام مثل تلخيص المستندات وصياغة رسائل البريد الإلكتروني وترجمة اللغات لتعزيز الكفاءة.
  • ترجمة اللغات: يمكن استخدام أحدث إصدار من GPT لتطوير مترجمين يقدمون ترجمة لغوية دقيقة وفي الوقت الفعلي لتحسين التواصل عبر اللغات المختلفة.

GPT-4o Mini يفتح آفاقًا جديدة

يخلق GPT-4o Mini فرصًا جديدة لمستقبل الذكاء الاصطناعي متعدد الوسائط. انخفضت تكلفة معالجة كل جزء من النص أو البيانات، والمعروفة باسم التكلفة لكل رمز (Cost per token)، بشكل كبير - بنسبة 99٪ تقريبًا - منذ عام 2022، عندما تم إصدار text-davinci-003، نموذج GPT-3. يُظهر هذا الانخفاض في التكلفة اتجاهًا واضحًا نحو جعل الذكاء الاصطناعي المتقدم ميسور التكلفة. مع استمرار تحسن نماذج الذكاء الاصطناعي، يصبح دمج الذكاء الاصطناعي في كل تطبيق وموقع ويب أمرًا قابلاً للتطبيق اقتصاديًا!

هل ترغب في تجربة الذكاء الاصطناعي بشكل عملي؟ قم بزيارة مستودع GitHub الخاص بنا للاطلاع على ابتكاراتنا وكن جزءًا من مجتمعنا النشط. تعرف على المزيد حول تطبيقات الذكاء الاصطناعي في التصنيع و الزراعة على صفحات الحلول الخاصة بنا.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة