نظرة على ابتكارات الذكاء الاصطناعي المثيرة في الربع الأول من عام 2024. سنغطي اختراقات مثل الذكاء الاصطناعي Sora من OpenAI، وشريحة الدماغ من Neuralink، وأحدث الابتكارات في مجال الذكاء الاصطناعي.

نظرة على ابتكارات الذكاء الاصطناعي المثيرة في الربع الأول من عام 2024. سنغطي اختراقات مثل الذكاء الاصطناعي Sora من OpenAI، وشريحة الدماغ من Neuralink، وأحدث الابتكارات في مجال الذكاء الاصطناعي.
يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الأخبار بشكل شبه يومي. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بابتكارات الذكاء الاصطناعي الجديدة. من النماذج اللغوية الكبيرة الجديدة القوية الجديدة إلى غرسات الدماغ البشري، يتشكل عام 2024 ليكون مذهلاً.
نحن نرى الذكاء الاصطناعي يُحدث تحولاً في الصناعات، ويجعل المعلومات أكثر سهولة، بل ويتخذ الخطوات الأولى نحو دمج عقولنا مع الآلات. دعونا نسترجع الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في مجال الذكاء الاصطناعي في غضون أشهر قليلة.
احتلت النماذج اللغوية الكبيرة (LLMs)، المصممة لفهم اللغة البشرية وتوليدها ومعالجتها بناءً على كميات هائلة من البيانات النصية، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها، ولكل منها قدرات فريدة من نوعها. وقد ألهم النجاح المذهل الذي حققته نماذج LLM السابقة مثل GPT-3 هذا الاتجاه. فيما يلي بعض من أبرز إصدارات LLM من أوائل عام 2024.
أصدرت أنثروبيك كلود 3 في 14 مارس 2024. يأتي طراز Claude 3 في ثلاثة إصدارات: Opus، وSonnet، وHiku، وكل منها يخدم أسواقًا وأغراضًا مختلفة. Haiku، وهو النموذج الأسرع، تم تحسينه للاستجابة السريعة والأساسية. يوازن Sonnet بين السرعة والذكاء ويستهدف تطبيقات المؤسسات. يوفر Opus، وهو الإصدار الأكثر تقدمًا، ذكاءً واستدلالاً لا مثيل له وهو مثالي للمهام المعقدة وتحقيق أعلى المعايير.
يتميز Claude 3 بالعديد من الميزات والتحسينات المتقدمة:
Databricks DBRX هو برنامج Databricks DBRX هو برنامج LLM مفتوح للأغراض العامة أصدرته شركة Databricks في 27 مارس 2024. يحقق DBRX أداءً جيدًا في العديد من المعايير، بما في ذلك فهم اللغة والبرمجة والرياضيات. وهو يتفوق على النماذج الأخرى القائمة مع كونه أصغر بنسبة 40% تقريبًا من النماذج المماثلة.
تم تدريب DBRX باستخدام التنبؤ بالرمز التالي باستخدام بنية مزيج دقيق من الخبراء (MoE)، ولهذا السبب يمكننا أن نرى تحسينات كبيرة في التدريب وأداء الاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في التسلسل بشكل أكثر دقة من خلال الرجوع إلى مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.
طرحت Google Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة يمكنه تحليل بيانات نصية وفيديو وصوتية واسعة النطاق، في 15 فبراير 2024. يُعد النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. الميزة الرئيسية في نموذج Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز بشكل متسق. يعود الفضل في قدرات Gemini 1.5 أيضًا إلى بنية جديدة قائمة على MoE.
فيما يلي بعض ميزات Gemini 1.5 الأكثر إثارة للاهتمام:
كشف الربع الأول من عام 2024 النقاب عن نماذج الذكاء الاصطناعي التوليدي التي يمكنها إنشاء صور حقيقية لدرجة أنها أثارت نقاشات حول مستقبل وسائل التواصل الاجتماعي وتقدم الذكاء الاصطناعي. دعونا نتعمق في النماذج التي تثير النقاش.
أعلنت شركة OpenAI، مبتكر ChatGPT، عن نموذج متطور لتحويل النص إلى فيديو، وهو نموذج متطور للتعلم العميق يسمى Sora في 15 فبراير 2024. Sora هو مولد لتحويل النص إلى فيديو قادر على توليد مقاطع فيديو مدتها دقيقة واحدة بجودة بصرية عالية بناءً على مطالبات المستخدم النصية.
على سبيل المثال، ألق نظرة على المطالبة التالية.
"عالم رائع مصنوع من الورق على شكل شعاب مرجانية مليء بالأسماك والكائنات البحرية الملونة."
وها هو إطار من فيديو الإخراج.
تجعل بنية Sora هذا الأمر ممكناً من خلال مزج نماذج الانتشار لتوليد النسيج ونماذج المحولات لتحقيق التماسك الهيكلي. حتى الآن، تم منح إمكانية الوصول إلى Sora إلى أعضاء الفريق الأحمر ومجموعة مختارة من الفنانين المرئيين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على تعليقات.
أعلنت شركة Stability AI عن وصول نموذج Stability Diffusion 3، وهو نموذج توليد نص إلى صورة، في 22 فبراير 2024. يمزج النموذج بين بنية محول الانتشار ومطابقة التدفق. لم يصدروا ورقة تقنية بعد، ولكن هناك بعض الميزات الرئيسية التي يجب البحث عنها.
يوفر أحدث طراز من برنامج Stable Diffusion Diffusion 3 أداءً محسنًا وجودة صورة ودقة في إنشاء صور ذات مواضيع متعددة. سيقدم Stable Diffusion 3 أيضًا مجموعة متنوعة من النماذج تتراوح بين 800 مليون و8 مليارات معلمة. سيسمح للمستخدمين بالاختيار بناءً على احتياجاتهم الخاصة لقابلية التوسع والتفاصيل.
في 23 يناير 2024، أطلقت Google في 23 يناير 2024، أطلقت Google Lumiere، وهو نموذج نشر النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet اختصاراً. تساعد لوميير على فهم مكان الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة ونابضة بالحياة.
مع القدرة على توليد 80 إطارًا لكل فيديو، تتخطى Lumiere الحدود وتضع معايير جديدة لجودة الفيديو في مجال الذكاء الاصطناعي. إليك بعض ميزات Lumiere:
لقد جلبت بداية عام 2024 أيضاً العديد من ابتكارات الذكاء الاصطناعي التي تبدو وكأنها من أفلام الخيال العلمي. أشياء كنا نقول في السابق إنها مستحيلة يجري العمل عليها الآن. لا يبدو المستقبل بعيداً جداً مع الاكتشافات التالية.
نجحت شركة Neuralink التي ابتكرها إيلون ماسك في زرع شريحة دماغية لاسلكية في إنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة البشر بأجهزة الكمبيوتر. وقد أعلن إيلون ماسك أن أول منتج لشركة Neuralink، والذي يحمل اسم "التخاطر عن بُعد"، في طور الإعداد.
الهدف هو تمكين المستخدمين، وخاصة أولئك الذين فقدوا وظائف أطرافهم، من التحكم في الأجهزة دون عناء من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من الراحة. يتخيل إيلون ماسك مستقبلاً يمكن فيه للأفراد المصابين بالشلل التواصل بسهولة.
في 18 يناير 2024، كشفت شركة والت ديزني إيماجنيرنغ النقاب عن أرضية هولوتيل. وقد أُطلق عليها اسم أول أرضية مشاية متعددة الأشخاص ومتعددة الاتجاهات في العالم.
يمكن أن تتحرك تحت أي شخص أو جسم مثل التحريك عن بُعد للحصول على تجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه، وتجنب الاصطدامات أثناء السير عليها. يمكن أيضاً زرع أرضية HoloTile Floor من ديزني على خشبة المسرح للرقص والتحرك بطرق مبتكرة.
في 2 فبراير 2024، طُرحت سماعة Vision Pro التي طال انتظارها من Apple في الأسواق. تحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والواقع المعزز. تلبي سماعة Vision Pro احتياجات جمهور متنوع من خلال المزج بين الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أنه تم تحسين أكثر من 600 تطبيق، بدءاً من أدوات الإنتاجية إلى خدمات الألعاب والترفيه، لتناسب نظارة Vision Pro عند إطلاقها.
في 12 مارس 2024، أصدرت شركة كوغنيشن مساعد هندسة برمجيات يُدعى ديفين. ديفين هو أول محاولة في العالم لمهندس برمجيات ذكاء اصطناعي مستقل. على عكس مساعدي البرمجة التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة، تم تصميم Devin للتعامل مع مشاريع تطوير البرمجيات بالكامل من المفهوم الأولي إلى الإنجاز.
ويمكنها تعلم تقنيات جديدة، وبناء تطبيقات كاملة ونشرها، والعثور على الأخطاء وإصلاحها، وتدريب نماذجها الخاصة، والمساهمة في قواعد الرموز مفتوحة المصدر وقواعد رموز الإنتاج، وحتى تولي وظائف تطوير حقيقية من مواقع مثل Upwork.
تم تقييم Devin على معيار SWE-bench، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub في العالم الحقيقي الموجودة في مشاريع مفتوحة المصدر مثل Django و scikit-learn. وقد حلّ البرنامج 13.86% من المشكلات من البداية إلى النهاية بشكل صحيح، مقارنةً بأفضل النتائج السابقة التي بلغت 1.96%.
لقد حدث الكثير من الأحداث لدرجة أن تغطية كل شيء في هذا المقال غير ممكن. ولكن، إليك بعض الإشارات المشرفة.
شهدت بداية عام 2024 تطورات رائدة في مجال الذكاء الاصطناعي والعديد من الإنجازات التكنولوجية الكبرى. ولكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن أحدث تطورات الذكاء الاصطناعي، فإن Ultralytics ستساعدك في ذلك.
اطلع على مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في مجال الرؤية الحاسوبية والذكاء الاصطناعي. يمكنك أيضًا الاطلاع على صفحات الحلول الخاصة بنا لمعرفة كيفية استخدام الذكاء الاصطناعي في صناعات مثل التصنيع والرعاية الصحية.