استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

تبدأ سنة 2024 بموجة من الذكاء الاصطناعي التوليدي

أبيرامي فينا

6 دقائق قراءة

12 أبريل، 2024

نظرة على ابتكارات الذكاء الاصطناعي المثيرة من الربع الأول من عام 2024. سنغطي الاكتشافات الرائدة مثل Sora AI من OpenAI، وشريحة Neuralink للدماغ، وأحدث نماذج LLMs.

يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الأخبار بشكل شبه يومي. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بابتكارات الذكاء الاصطناعي الجديدة. من نماذج اللغة الكبيرة القوية الجديدة إلى غرسات الدماغ البشري، يبدو عام 2024 واعدًا.

نشهد تحول الذكاء الاصطناعي في الصناعات، مما يجعل المعلومات أكثر سهولة، بل ويخطو الخطوات الأولى نحو دمج عقولنا مع الآلات. دعنا نرجع إلى الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في الذكاء الاصطناعي في بضعة أشهر فقط.

نماذج LLMs تتجه بقوة

احتلت نماذج اللغة الكبيرة (LLMs)، المصممة لفهم وإنشاء ومعالجة اللغة البشرية بناءً على كميات هائلة من البيانات النصية، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها، ولكل منها قدرات فريدة. ألهم النجاح المذهل لنماذج LLM السابقة مثل GPT-3 هذا الاتجاه. فيما يلي بعض من أبرز إصدارات LLM من أوائل عام 2024.

Claude 3 من Anthropic

أصدرت Anthropic Claude 3 في 14 مارس 2024. يأتي نموذج Claude 3 في ثلاثة إصدارات: Opus و Sonnet و Haiku، تخدم كل منها أسواقًا وأغراضًا مختلفة. Haiku، النموذج الأسرع، مُحسَّن للاستجابات الأساسية السريعة. يوازن Sonnet بين السرعة والذكاء ويستهدف تطبيقات المؤسسات. يقدم Opus، الإصدار الأكثر تقدمًا، ذكاءً واستنتاجًا لا مثيل لهما وهو مثالي للمهام المعقدة وتحقيق أفضل المعايير.

يتميز Claude 3 بالعديد من الميزات والتحسينات المتقدمة:

  • محادثات متعددة اللغات محسّنة: قدرات محسّنة في لغات تشمل الإسبانية واليابانية والفرنسية.
  • ميزات رؤية متقدمة: قادرة على التعامل مع مختلف التنسيقات المرئية.
  • أقل حالات الرفض: يُظهر فهمًا أكبر مع عدد أقل من حالات الرفض غير الضرورية، مما يشير إلى تحسن الإدراك السياقي.
  • نافذة سياق موسعة: يوفر نافذة سياق بحجم 200 ألف رمز، ولكنه قادر على معالجة مدخلات تتجاوز مليون رمز بناءً على احتياجات العملاء.
__wf_reserved_inherit
الشكل 1. Claude 3 أكثر وعيًا بالسياق من الإصدارات السابقة.

DBRX من Databricks

Databricks DBRX هو نموذج لغوي كبير (LLM) مفتوح للأغراض العامة أطلقته Databricks في 27 مارس 2024. يحقق DBRX أداءً جيدًا حقًا في مختلف المعايير، بما في ذلك فهم اللغة والبرمجة والرياضيات. يتفوق على النماذج الأخرى المعروفة بينما هو أصغر بنسبة 40٪ تقريبًا من النماذج المماثلة.

__wf_reserved_inherit
الشكل 2. مقارنة DBRX مع النماذج الأخرى.

تم تدريب DBRX باستخدام توقع الرمز التالي مع بنية خليط الخبراء (MoE) دقيقة، وهذا هو السبب في أننا نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في التسلسل بدقة أكبر من خلال الرجوع إلى مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.

Gemini 1.5 من Google

قدمت Google نموذج Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة، ويمكنه تحليل النصوص ومقاطع الفيديو والبيانات الصوتية الشاملة، في 15 فبراير 2024. النموذج الأخير أكثر تقدمًا من حيث الأداء والكفاءة والقدرات. إحدى الميزات الرئيسية في Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز باستمرار. تعود قدرات Gemini 1.5 أيضًا إلى بنية جديدة تعتمد على MoE.

__wf_reserved_inherit
الشكل 3. مقارنة أطوال السياق لنماذج LLM الشائعة

إليك بعضًا من أهم ميزات Gemini 1.5:

  • معالجة محسنة للبيانات: يسمح بتحميل مباشر لملفات PDF كبيرة أو مستودعات التعليمات البرمجية أو مقاطع الفيديو المطولة كمطالبات. يمكن للنموذج أن يستنتج عبر الوسائط وإخراج النص.
  • تحميلات واستعلامات متعددة للملفات: يمكن للمطورين الآن تحميل ملفات متعددة وطرح الأسئلة.
  • يمكن استخدامه لمهام مختلفة: تم تحسينه للتوسع عبر مهام متنوعة، ويظهر تحسينات في مجالات مثل الرياضيات والعلوم والاستدلال واللغات المتعددة وفهم الفيديو والتعليمات البرمجية.

مرئيات مذهلة من الذكاء الاصطناعي

كشف الربع الأول من عام 2024 عن نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنشاء صور مرئية واقعية للغاية لدرجة أنها أثارت مناقشات حول مستقبل وسائل التواصل الاجتماعي وتقدم الذكاء الاصطناعي. دعنا نتعمق في النماذج التي تثير هذه المحادثة.

Sora من OpenAI 

أعلنت OpenAI، مبتكرة ChatGPT، عن نموذج متطور للتعلم العميق لتحويل النص إلى فيديو يسمى Sora في 15 فبراير 2024. Sora هو مولد نص إلى فيديو قادر على إنشاء مقاطع فيديو مدتها دقيقة واحدة بجودة بصرية عالية بناءً على مطالبات المستخدم النصية. 

على سبيل المثال، ألق نظرة على المطالبة التالية. 

“عالم مصنوع من الورق بشكل رائع لشعاب مرجانية، مليء بالأسماك الملونة والكائنات البحرية.” 

وهنا إطار من الفيديو الناتج. 

__wf_reserved_inherit
الشكل 4. إطار من فيديو تم إنشاؤه بواسطة Sora.

تجعل بنية Sora ذلك ممكنًا من خلال الجمع بين نماذج الانتشار لتوليد النسيج ونماذج المحولات للتماسك الهيكلي. حتى الآن، تم منح الوصول إلى Sora لفرق المراجعة الداخلية ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على التعليقات. 

Stable Diffusion 3 من Stability AI 

أعلنت Stability AI عن وصول Stable Diffusion 3، وهو نموذج لتوليد الصور من النصوص، في 22 فبراير 2024. يجمع النموذج بين بنية المحولات الانتشارية ومطابقة التدفق. لم يتم إصدار ورقة تقنية بعد، ولكن هناك بعض الميزات الرئيسية التي يجب الانتباه إليها.

__wf_reserved_inherit
الشكل 5. الصورة الناتجة بناءً على المطالبة: “عمل فني ملحمي بأسلوب الأنمي لساحر على قمة جبل في الليل يلقي تعويذة كونية في السماء المظلمة تقول "Stable Diffusion 3" مصنوعة من طاقة ملونة”

يقدم أحدث نموذج من Stable Diffusion أداءً وجودة صورة ودقة محسّنة في إنشاء صور تحتوي على مواضيع متعددة. سيوفر Stable Diffusion 3 أيضًا مجموعة متنوعة من النماذج تتراوح من 800 مليون إلى 8 مليارات معلمة. سيسمح ذلك للمستخدمين بالاختيار بناءً على احتياجاتهم الخاصة من حيث قابلية التوسع والتفاصيل.

Lumiere من Google 

في 23 يناير 2024، أطلقت Google Lumiere، وهو نموذج انتشار لتحويل النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet للاختصار. يساعد Lumiere على فهم أماكن وجود الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة وواقعية.

__wf_reserved_inherit
الشكل 6. إطار من مقطع فيديو تم إنشاؤه بناءً على المطالبة: “باندا يعزف على القيثارة في المنزل.”

مع القدرة على إنشاء 80 إطارًا لكل مقطع فيديو، يدفع Lumiere الحدود ويضع معايير جديدة لجودة الفيديو في مجال الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:

  • تحويل الصورة إلى فيديو: بدءًا من صورة ومطالبة، يمكن لـ Lumiere تحريك الصور إلى مقاطع فيديو.
  • جيل مُنمّق: يمكن لـ Lumiere إنشاء مقاطع فيديو بأنماط محددة باستخدام صورة مرجعية واحدة.
  • الرسوم المتحركة السينمائية: يمكن لـ Lumiere تحريك مناطق معينة داخل صورة لإنشاء مشاهد ديناميكية، مثل تحريك كائن معين بينما يظل باقي المشهد ثابتًا.
  • ترميم الفيديو: يمكنه تعديل أجزاء من الفيديو، مثل تغيير ملابس الأشخاص الموجودين فيه أو تغيير تفاصيل الخلفية.

يبدو أن المستقبل قد وصل

كما جلب بداية عام 2024 العديد من ابتكارات الذكاء الاصطناعي التي تبدو وكأنها مأخوذة من فيلم خيال علمي. الأشياء التي كنا نقول سابقًا أنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيدًا جدًا مع الاكتشافات التالية.

Neuralink من Elon Musk

زرعت Neuralink التابعة لـ Elon Musk بنجاح شريحة الدماغ اللاسلكية الخاصة بها في إنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة الإنسان بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لـ Neuralink، والذي يحمل اسم ‘Telepathy،’ قيد الإعداد. 

__wf_reserved_inherit
الشكل 7. زرعة Neuralink

الهدف هو تمكين المستخدمين، وخاصة أولئك الذين فقدوا وظائف الأطراف، من التحكم في الأجهزة بسهولة من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من مجرد الراحة. يتخيل Elon Musk مستقبلًا يمكن فيه للأفراد المصابين بالشلل التواصل بسهولة.

أرضية HoloTile من Disney 

في 18 يناير 2024، كشفت Walt Disney Imagineering عن أرضية HoloTile. وقد أُطلق عليها اسم أول أرضية جهاز مشي متعددة الاتجاهات ومتعددة الأشخاص في العالم. 

__wf_reserved_inherit
الشكل 8. يقف Lanny Smoot، مهندس التصميم في Disney، على أحدث ابتكاراته، أرضية HoloTile.

يمكن أن تتحرك تحت أي شخص أو كائن مثل التحريك الذهني لتجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه، وتجنب الاصطدامات أثناء وجودك عليها. يمكن أيضًا زرع أرضية HoloTile من Disney على المسارح للرقص والتحرك بطرق إبداعية.

Vision Pro من Apple

في 2 فبراير 2024، وصل جهاز Vision Pro المنتظر من Apple إلى السوق. يحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. يلبي جهاز Vision Pro جمهورًا متنوعًا من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أنه تم تحسين أكثر من 600 تطبيق، تتراوح من أدوات الإنتاجية إلى خدمات الألعاب والترفيه، لجهاز Vision Pro عند إطلاقه.

Devin من Cognition

في 12 مارس 2024، أطلقت Cognition مساعدًا في هندسة البرمجيات يسمى Devin. Devin هو أول محاولة في العالم لمهندس برمجيات يعمل بالذكاء الاصطناعي المستقل. على عكس مساعدي الترميز التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة، تم تصميم Devin للتعامل مع مشاريع تطوير البرامج بأكملها من المفهوم الأولي إلى الاكتمال. 

يمكنه تعلم تقنيات جديدة، وبناء تطبيقات كاملة ونشرها، وإيجاد الأخطاء وإصلاحها، وتدريب النماذج الخاصة به، والمساهمة في قواعد التعليمات البرمجية مفتوحة المصدر والإنتاجية، وحتى تولي وظائف تطوير حقيقية من مواقع مثل Upwork. 

__wf_reserved_inherit
الشكل 9. مقارنة Devin مع النماذج الأخرى.

تم تقييم Devin على SWE-bench، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub الواقعية الموجودة في المشاريع مفتوحة المصدر مثل Django و scikit-learn. لقد حل بشكل صحيح 13.86٪ من المشكلات بشكل كامل، مقارنةً بالحالة السابقة لأحدث التقنيات التي بلغت 1.96٪.

إشارات جديرة بالذكر

حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكنة. ولكن، إليك بعض الإشارات الجديرة بالذكر. 

  • إن LATTE3D من NVIDIA، الذي تم الإعلان عنه في 21 مارس 2024، هو نموذج ذكاء اصطناعي لتحويل النص إلى ثلاثي الأبعاد يقوم على الفور بإنشاء تمثيلات ثلاثية الأبعاد من مطالبات نصية.
  • بدأ التدريب على مولد تحويل النص إلى فيديو الجديد من Midjourney، الذي ألمح إليه الرئيس التنفيذي David Holz، في يناير ومن المتوقع إطلاقه قريبًا.
  • في إطار تعزيز ثورة أجهزة الكمبيوتر التي تعمل بالذكاء الاصطناعي، أصدرت Lenovo جهاز ThinkBook 13x بتقنية E Ink Prism وأجهزة كمبيوتر محمولة عالية الأداء تعمل بالذكاء الاصطناعي في 8 يناير 2024.

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

شهدت بداية عام 2024 تطورات رائدة في مجال الذكاء الاصطناعي والعديد من الإنجازات التكنولوجية الكبرى. ولكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد حول أحدث تطورات الذكاء الاصطناعي، فإن Ultralytics توفر لك كل ما تحتاجه.

تحقق من مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في مجال الرؤية الحاسوبية والذكاء الاصطناعي. يمكنك أيضًا إلقاء نظرة على صفحات الحلول الخاصة بنا لمعرفة كيف يتم استخدام الذكاء الاصطناعي في صناعات مثل التصنيع و الرعاية الصحية

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة