يبدأ عام 2024 بموجة الذكاء الاصطناعي التوليدي

نظرة على ابتكارات الذكاء الاصطناعي المثيرة في الربع الأول من عام 2024. سنغطي اختراقات مثل الذكاء الاصطناعي Sora من OpenAI، وشريحة الدماغ من Neuralink، وأحدث الابتكارات في مجال الذكاء الاصطناعي.

كتبه

أبيرامي فينا

قراءة دقيقة

أبريل 12, 2024

أبريل 13, 2025

تتجه شهادات الماجستير في القانون

Anthropicكلود 3

داتا بريك DBRX

Googleالجوزاء 1.5

مرئيات مذهلة من الذكاء الاصطناعي

سورا من OpenAI

Stability AIالانتشار المستقر 3

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الصحف يوميا تقريبا. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بالابتكارات الذكاء الاصطناعي الجديدة. من نماذج اللغة الكبيرة الجديدة القوية إلى غرسات الدماغ البشري ، يتشكل عام 2024 ليكون مذهلا.

نحن نشهد الذكاء الاصطناعي تحول الصناعات ، وجعل المعلومات أكثر سهولة ، وحتى اتخاذ الخطوات الأولى نحو دمج عقولنا مع الآلات. دعونا نرجع الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في الذكاء الاصطناعي في غضون بضعة أشهر فقط.

تتجه شهادات الماجستير في القانون

احتلت نماذج اللغة الكبيرة (LLMs) ، المصممة لفهم اللغة البشرية وتوليدها ومعالجتها بناء على كميات هائلة من البيانات النصية ، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها ، ولكل منها قدرات فريدة. النجاح المذهل ل LLMs السابقة مثل GPT-3 ألهم هذا الاتجاه. فيما يلي بعض أبرز إصدارات LLM من أوائل عام 2024.

Anthropicكلود 3

Anthropic صدر كلود 3 في 14 مارس 2024. يأتي طراز كلود 3 في ثلاثة إصدارات: Opus و Sonnet و Haiku ، كل منها يخدم أسواقا وأغراضا مختلفة. تم تحسين Haiku ، أسرع طراز ، للحصول على استجابات سريعة وأساسية. توازن Sonnet بين السرعة والذكاء وتستهدف تطبيقات المؤسسات. يوفر Opus ، الإصدار الأكثر تقدما ، ذكاء وتفكيرا لا مثيل لهما وهو مثالي للمهام المعقدة وتحقيق أعلى المعايير.

يتميز كلود 3 بالعديد من الميزات والتحسينات المتقدمة:

محادثات محسنة متعددة اللغات: تحسين القدرات في اللغات بما في ذلك الإسبانية واليابانية والفرنسية.
‍
ميزات الرؤية المتقدمة: قادرة على التعامل مع مختلف التنسيقات المرئية.
‍
تقليل حالات الرفض: يُظهر مزيداً من الفهم مع عدد أقل من حالات الرفض غير الضرورية، مما يشير إلى تحسن الفهم السياقي.
‍
نافذة السياق الموسعة: يوفر نافذة سياق 200K ، ولكنه قادر على معالجة المدخلات التي تزيد عن 1 مليون رمز بناء على احتياجات العملاء.

_w_f_reserved_herit — الشكل 1. كلود 3 أكثر وعيا بالسياق من الإصدارات السابقة.

‍

داتا بريك DBRX

Databricks DBRX هو ماجستير مفتوح للأغراض العامة تم إصداره بواسطة Databricks في 27 مارس 2024. يعمل DBRX بشكل جيد في مختلف المعايير ، بما في ذلك فهم اللغة والبرمجة والرياضيات. إنه يفوق النماذج الأخرى الراسخة بينما يكون أصغر بنسبة 40٪ تقريبا من النماذج المماثلة.

‍

تم تدريب DBRX باستخدام التنبؤ بالرمز المميز التالي مع بنية مزيج دقيق من الخبراء (MoE) ، ولهذا السبب يمكننا أن نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في تسلسل أكثر دقة من خلال استشارة مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.

Googleالجوزاء 1.5

Google طرح Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة يمكنه تحليل بيانات نصية وفيديو وصوتية واسعة النطاق، في 15 فبراير 2024. النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. الميزة الرئيسية في نموذج Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز بشكل متسق. يعود الفضل في قدرات Gemini 1.5 أيضًا إلى بنية جديدة قائمة على MoE.

‍

فيما يلي بعض ميزات الجوزاء 1.5 الأكثر إثارة للاهتمام:

تحسين التعامل مع البيانات: يسمح بالتحميل المباشر لملفات PDF الكبيرة أو مستودعات الأكواد أو مقاطع الفيديو الطويلة كمطالبات. يمكن للنموذج التفكير عبر الطرائق وإخراج النص.
‍
تحميل ملفات واستعلامات متعددة: يمكن للمطورين الآن تحميل ملفات متعددة وطرح الأسئلة.
‍
يمكن استخدامها لمهام مختلفة: تم تحسينه للتوسع عبر مهام متنوعة ، ويظهر تحسينات في مجالات مثل الرياضيات والعلوم والتفكير وتعدد اللغات وفهم الفيديو والتعليمات البرمجية

مرئيات مذهلة من الذكاء الاصطناعي

كشف الربع الأول من عام 2024 النقاب عن نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنشاء صور حقيقية لدرجة أنها أثارت مناقشات حول مستقبل وسائل التواصل الاجتماعي والتقدم الذي أحرزته الذكاء الاصطناعي. دعنا نتعمق في النماذج التي تثير المحادثة.

سورا من OpenAI

OpenAI ، مبتكر ChatGPT، أعلن عن نموذج حديث للتعلم العميق لتحويل النص إلى فيديو يسمى سورا في 15 فبراير 2024. Sora هو مولد تحويل النص إلى فيديو قادر على إنشاء مقاطع فيديو مدتها دقيقة بجودة بصرية عالية بناء على مطالبات المستخدم النصية.

على سبيل المثال ، ألق نظرة على المطالبة التالية.

"عالم الأعمال الفنية الورقية الرائع للشعاب المرجانية ، المليء بالأسماك الملونة والمخلوقات البحرية."

وهنا إطار من إخراج الفيديو.

‍

تجعل بنية سورا هذا ممكنا من خلال مزج نماذج الانتشار لتوليد النسيج ونماذج المحولات للتماسك الهيكلي. حتى الآن ، تم منح الوصول إلى Sora لأعضاء الفريق الأحمر ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على التعليقات.

Stability AIالانتشار المستقر 3

Stability AI عن وصول Stable Diffusion 3 ، وهو نموذج لتوليد النص إلى صورة ، في 22 فبراير 2024. يمزج النموذج بين بنية محول الانتشار ومطابقة التدفق. لم يصدروا بعد ورقة فنية ، ولكن هناك بعض الميزات الرئيسية التي يجب البحث عنها.

‍

يوفر أحدث طراز من الانتشار المستقر أداء محسنا وجودة صورة ودقة في إنشاء صور ذات أهداف متعددة. كما سيقدم Stable Diffusion 3 مجموعة متنوعة من النماذج التي تتراوح من 800 مليون إلى 8 مليارات معلمة. سيسمح للمستخدمين بالاختيار بناء على احتياجاتهم الخاصة لقابلية التوسع والتفاصيل.

Googleلوميير

في 23 يناير 2024، أطلق الموقع الإلكتروني Google Lumiere، وهو نموذج نشر النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet اختصاراً. تساعد لوميير على فهم مكان الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة ونابضة بالحياة.

‍

مع القدرة على توليد 80 إطارا لكل فيديو ، تتخطى Lumiere الحدود وتضع معايير جديدة لجودة الفيديو في مساحة الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:

تحويل صورة إلى فيديو: بدءًا من صورة وموجه، يمكن لوميير تحويل الصور إلى مقاطع فيديو.
‍
توليد منمق: يستطيع Lumiere إنشاء مقاطع فيديو بأنماط محددة باستخدام صورة مرجعية واحدة.
‍
الفقرات السينمائية: يمكن لوميير تحريك مناطق معينة داخل الصورة لإنشاء مشاهد ديناميكية، مثل تحريك كائن معين بينما يظل باقي المشهد ثابتًا.
‍
فيديو Inpainting: يمكنه تعديل أجزاء من الفيديو ، مثل تغيير ملابس الأشخاص بداخله أو تغيير تفاصيل الخلفية.

يبدو أن المستقبل هنا

جلبت بداية عام 2024 أيضا العديد من الابتكارات الذكاء الاصطناعي التي تبدو وكأنها شيء من فيلم خيال علمي. الأشياء التي كنا نقول في السابق أنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيدا جدا مع الاكتشافات التالية.

إيلون ماسك نيورالينك

نجح Elon Musk في زرع رقاقة الدماغ اللاسلكية في الإنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة البشر بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لشركة Neuralink ، المسمى "Telepathy" ، قيد الإعداد.

‍

الهدف هو تمكين المستخدمين ، وخاصة أولئك الذين فقدوا وظائف الأطراف ، من التحكم في الأجهزة دون عناء من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من الراحة. يتخيل Elon Musk مستقبلا حيث يمكن للأفراد المصابين بالشلل التواصل بسهولة.

ديزني هولوتيل فلور

في 18 يناير 2024 ، كشف والت ديزني إيماجينيرينج النقاب عن أرضية HoloTile. وقد أطلق عليها اسم أول جهاز مشي متعدد الأشخاص في العالم.

‍

يمكن أن يتحرك تحت أي شخص أو كائن مثل التحريك الذهني للحصول على تجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه ، وتجنب الاصطدامات أثناء ذلك. يمكن أيضا زرع أرضية HoloTile من ديزني على خشبة المسرح للرقص والتحرك بطرق إبداعية.

رؤية أبل برو

في 2 فبراير 2024 ، وصلت سماعة Vision Pro التي طال انتظارها من Apple إلى السوق. يحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. تلبي سماعة Vision Pro جمهورا متنوعا من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أن أكثر من 600 تطبيق ، بدءا من أدوات الإنتاجية إلى خدمات الألعاب والترفيه ، تم تحسينها ل Vision Pro عند إطلاقها.

ديفين الإدراك

في 12 مارس 2024 ، أصدرت Cognition مساعد هندسة برمجيات يسمى ديفين. ديفين هي أول محاولة في العالم لمهندس برمجيات الذكاء الاصطناعي مستقل. على عكس مساعدي الترميز التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة ، تم تصميم Devin للتعامل مع مشاريع تطوير البرامج بأكملها من المفهوم الأولي إلى الانتهاء.

يمكنه تعلم تقنيات جديدة ، وإنشاء تطبيقات كاملة ونشرها ، والعثور على الأخطاء وإصلاحها ، وتدريب نماذجها الخاصة ، والمساهمة في قواعد التعليمات البرمجية مفتوحة المصدر والإنتاج ، وحتى تولي وظائف التطوير الحقيقية من مواقع مثل Upwork.

‍

تم تقييم ديفين على SWE-bench ، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub في العالم الحقيقي الموجودة في مشاريع مفتوحة المصدر مثل Django و scikit-learn. لقد حلت بشكل صحيح 13.86٪ من المشكلات من البداية إلى النهاية ، مقارنة بالحالة السابقة البالغة 1.96٪.

التنويهات الشرفية

لقد حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكن. ولكن ، إليك بعض الإشارات الأكثر شرفا.

تم الإعلان عن LATTE3D من NVIDIA في 21 مارس 2024، وهو نموذج ذكاء اصطناعي من نص إلى ثلاثي الأبعاد يقوم بإنشاء تمثيلات ثلاثية الأبعاد على الفور من المطالبات النصية.
‍
بدأ مولد ميدجورني الجديد لتحويل النص إلى فيديو، الذي أعلن عنه الرئيس التنفيذي ديفيد هولز، التدريب في يناير ومن المتوقع إطلاقه قريبًا.
‍
لتعزيز ثورة الكمبيوتر الذكاء الاصطناعي ، أصدرت Lenovo ThinkBook 13x بتقنية E Ink Prism وأجهزة الكمبيوتر المحمولة الذكاء الاصطناعي عالية الأداء في 8 يناير 2024.

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

شهدت بداية عام 2024 تطورات رائدة في الذكاء الاصطناعي والعديد من المعالم التكنولوجية الرئيسية. لكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن آخر التطورات الذكاء الاصطناعي ، Ultralytics لقد حصلت على تغطيتها.

تحقق من مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في رؤية الكمبيوتر الذكاء الاصطناعي. يمكنك أيضا إلقاء نظرة على صفحات الحلول الخاصة بنا لمعرفة كيفية استخدام الذكاء الاصطناعي في صناعات مثل التصنيع والرعاية الصحية.

يبدأ عام 2024 بموجة الذكاء الاصطناعي التوليدي