تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
الذكاء الاصطناعي المرئي

عام 2024 يبدأ بموجة من الذكاء الاصطناعي التوليدي

نظرة على ابتكارات الذكاء الاصطناعي المثيرة من الربع الأول لعام 2024. سنغطي اختراقات مثل Sora AI من OpenAI، وشريحة الدماغ من Neuralink، وأحدث النماذج اللغوية الكبيرة (LLMs).

أبأبيرامي فينا
6 min read
اختراقات الذكاء الاصطناعي التوليدي من أوائل عام 2024

يبدو أن مجتمع الذكاء الاصطناعي يتصدر العناوين يومياً تقريباً. لقد كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بابتكارات الذكاء الاصطناعي الجديدة. فمن نماذج اللغة الكبيرة القوية إلى غرسات الدماغ البشري، يبدو أن عام 2024 سيكون عاماً مذهلاً.

نحن نشهد تحول الذكاء الاصطناعي للصناعات، مما يجعل المعلومات أكثر سهولة في الوصول إليها، بل ويتخذ الخطوات الأولى نحو دمج عقولنا مع الآلات. دعونا نراجع الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في مجال الذكاء الاصطناعي خلال بضعة أشهر فقط.

Link to this sectionنماذج LLMs تتصدر الاتجاهات#

احتلت نماذج اللغة الكبيرة (LLMs)، المصممة لفهم وتوليد ومعالجة اللغة البشرية بناءً على كميات هائلة من البيانات النصية، مركز الصدارة في الربع الأول من عام 2024. أطلقت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها، ولكل منها قدرات فريدة. لقد ألهم النجاح المذهل لنماذج LLMs السابقة مثل GPT-3 هذا الاتجاه. فيما يلي بعض من أبرز إصدارات LLM من أوائل عام 2024.

Link to this sectionنموذج Claude 3 من Anthropic#

أطلقت Anthropic نموذج Claude 3 في 14 مارس 2024. يأتي نموذج Claude 3 في ثلاثة إصدارات: Opus وSonnet وHaiku، حيث يخدم كل منها أسواقاً وأغراضاً مختلفة. Haiku، وهو النموذج الأسرع، مصمم للاستجابات السريعة والأساسية. يوازن Sonnet بين السرعة والذكاء ويستهدف تطبيقات المؤسسات. أما Opus، فهو الإصدار الأكثر تقدماً، ويوفر ذكاءً وقدرة على الاستنتاج لا مثيل لهما، وهو مثالي للمهام المعقدة وتحقيق أفضل المعايير.

يتميز Claude 3 بالعديد من الميزات والتحسينات المتقدمة:

  • محادثات متعددة اللغات معززة: قدرات محسنة في لغات تشمل الإسبانية واليابانية والفرنسية.
  • ميزات رؤية متقدمة: قادر على التعامل مع تنسيقات بصرية متنوعة.
  • تقليل الرفض: يظهر فهماً أكبر مع رفض غير مبرر أقل، مما يشير إلى تحسن في استيعاب السياق.
  • نافذة سياق موسعة: يوفر نافذة سياق بحجم 200 ألف رمز، ولكنه قادر على معالجة مدخلات تزيد عن مليون رمز بناءً على احتياجات العميل.

رسم بياني يوضح الوعي السياقي لـ Claude 3 مقارنة بالإصدارات السابقة

الشكل 1. Claude 3 أكثر وعياً بالسياق من الإصدارات السابقة.

Link to this sectionنموذج DBRX من Databricks#

Databricks DBRX هو نموذج LLM مفتوح للأغراض العامة أطلقته Databricks في 27 مارس 2024. يحقق DBRX أداءً رائعاً في العديد من المعايير، بما في ذلك فهم اللغة والبرمجة والرياضيات. وهو يتفوق على النماذج الراسخة الأخرى بينما هو أصغر بنسبة 40% تقريباً من النماذج المماثلة.

مقارنة DBRX مع نماذج أخرى

الشكل 2. مقارنة DBRX مع نماذج أخرى.

تم تدريب DBRX باستخدام التنبؤ بالرمز التالي مع بنية خليط الخبراء (MoE) دقيقة، ولهذا السبب نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في التسلسل بدقة أكبر من خلال استشارة مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.

Link to this sectionنموذج Gemini 1.5 من Google#

قدمت Google نموذج Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط يتسم بكفاءة الحوسبة ويمكنه تحليل كميات واسعة من النصوص والفيديو والبيانات الصوتية، وذلك في 15 فبراير 2024. النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. إحدى الميزات الرئيسية لـ Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز باستمرار. كما تعود قدرات Gemini 1.5 إلى بنية جديدة تعتمد على MoE.

مقارنة أطوال السياق لنماذج اللغات الكبيرة الشهيرة

الشكل 3. مقارنة أطوال السياق لنماذج LLM الشهيرة

فيما يلي بعض ميزات Gemini 1.5 الأكثر إثارة للاهتمام:

  • معالجة بيانات محسنة: يسمح بالتحميل المباشر لملفات PDF الكبيرة، أو مستودعات الأكواد البرمجية، أو مقاطع الفيديو الطويلة كـ prompts. يمكن للنموذج الاستدلال عبر الوسائط المختلفة وإخراج النصوص.
  • تحميل واستعلامات متعددة للملفات: يمكن للمطورين الآن تحميل ملفات متعددة وطرح أسئلة عليها.
  • يمكن استخدامه لمهام مختلفة: تم تحسينه ليتوسع عبر مهام متنوعة، ويظهر تحسينات في مجالات مثل الرياضيات والعلوم والاستدلال وتعدد اللغات وفهم الفيديو والأكواد البرمجية.

Link to this sectionصور مذهلة من الذكاء الاصطناعي#

كشف الربع الأول من عام 2024 عن نماذج ذكاء اصطناعي توليدي يمكنها إنشاء صور واقعية للغاية لدرجة أنها أثارت جدلاً حول مستقبل وسائل التواصل الاجتماعي وتقدم الذكاء الاصطناعي. دعونا نتعمق في النماذج التي تثير هذه المحادثة.

Link to this sectionنموذج Sora من OpenAI#

أعلنت OpenAI، مبتكرة ChatGPT، عن نموذج تعلم عميق متطور لتحويل النص إلى فيديو يسمى Sora في 15 فبراير 2024. Sora هو مولد نص إلى فيديو قادر على إنشاء مقاطع فيديو مدتها دقيقة بجودة بصرية عالية بناءً على مطالب نصية من المستخدم.

على سبيل المثال، ألقِ نظرة على الـ prompt التالي.

"عالم مصنوع من الورق تم تصويره ببراعة لشعاب مرجانية، تعج بالأسماك الملونة والمخلوقات البحرية."

وهنا إطار من الفيديو الناتج.

إطار من فيديو تم إنشاؤه بواسطة OpenAI Sora

الشكل 4. إطار من فيديو تم إنشاؤه بواسطة Sora.

تتيح بنية Sora هذا من خلال دمج نماذج الانتشار (diffusion) لتوليد القوام ونماذج Transformer للتماسك الهيكلي. حتى الآن، تم منح الوصول إلى Sora لفريق red teamers ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على تعليقات.

Link to this sectionنموذج Stable Diffusion 3 من Stability AI#

أعلنت Stability AI عن وصول Stable Diffusion 3، وهو نموذج لتوليد الصور من النصوص، في 22 فبراير 2024. يمزج النموذج بين بنية الـ Transformer للانتشار و مطابقة التدفق. لم يتم إصدار ورقة تقنية بعد، ولكن هناك بعض الميزات الرئيسية التي يجب الانتباه إليها.

صورة تم إنشاؤها بواسطة Stable Diffusion 3 لساحر يلقي تعويذة كونية

الشكل 5. الصورة الناتجة بناءً على الـ prompt: "عمل فني أنمي ملحمي لساحر فوق جبل في الليل يلقي تعويذة كونية في السماء المظلمة تقول "Stable Diffusion 3" مصنوعة من طاقة ملونة" (المصدر)

يوفر أحدث نموذج من Stable Diffusion أداءً محسناً، وجودة صورة، ودقة في إنشاء صور ذات عناصر متعددة. سيوفر Stable Diffusion 3 أيضاً مجموعة متنوعة من النماذج تتراوح من 800 مليون إلى 8 مليارات معامل. سيسمح ذلك للمستخدمين بالاختيار بناءً على احتياجاتهم الخاصة لقابلية التوسع والتفاصيل.

Link to this sectionنموذج Lumiere من Google#

في 23 يناير 2024، أطلقت Google نموذج Lumiere، وهو نموذج انتشار لتحويل النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو اختصاراً STUNet. يساعد ذلك Lumiere على فهم أماكن الأشياء وكيفية تحركها في الفيديو. من خلال القيام بذلك، يمكنه إنشاء مقاطع فيديو سلسة وواقعية.

إطار من فيديو تم إنشاؤه بواسطة Google Lumiere لباندا يعزف على القيثارة

الشكل 6. إطار من فيديو تم إنشاؤه بناءً على الـ prompt: "باندا تعزف على القيثارة في المنزل."

مع القدرة على توليد 80 إطاراً لكل فيديو، يدفع Lumiere الحدود ويضع معايير جديدة لجودة الفيديو في مجال الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:

  • من صورة إلى فيديو: بدءاً من صورة و prompt، يمكن لـ Lumiere تحريك الصور إلى مقاطع فيديو.
  • توليد منمق: يمكن لـ Lumiere إنشاء مقاطع فيديو بأنماط محددة باستخدام صورة مرجعية واحدة.
  • Cinemagraphs: يمكن لـ Lumiere تحريك مناطق محددة داخل صورة لإنشاء مشاهد ديناميكية، مثل تحرك كائن معين بينما يظل باقي المشهد ثابتاً.
  • تعبئة الفيديو (Video Inpainting): يمكنه تعديل أجزاء من الفيديو، مثل تغيير ملابس الأشخاص فيه أو تغيير تفاصيل الخلفية.

Link to this sectionالمستقبل يبدو أنه قد وصل#

جلب بداية عام 2024 أيضاً العديد من ابتكارات الذكاء الاصطناعي التي تبدو كأنها شيء من أفلام الخيال العلمي. الأشياء التي كنا نقول سابقاً إنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيداً جداً مع الاكتشافات التالية.

نجحت شركة Neuralink المملوكة لـ Elon Musk في زرع رقاقة دماغ لاسلكية في إنسان في 29 يناير 2024. هذه خطوة هائلة نحو ربط العقول البشرية بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لـ Neuralink، المسمى 'Telepathy'، قيد الإعداد.

غرسة Neuralink

الشكل 7. زرعة Neuralink

الهدف هو تمكين المستخدمين، وخاصة أولئك الذين فقدوا وظائف الأطراف، من التحكم في الأجهزة دون عناء من خلال أفكارهم. التطبيقات المحتملة تتجاوز مجرد الراحة. يتخيل Elon Musk مستقبلاً حيث يمكن للأفراد المصابين بالشلل التواصل بسهولة.

Link to this sectionأرضية HoloTile من Disney#

في 18 يناير 2024، كشفت Walt Disney Imagineering عن أرضية HoloTile. وقد أُطلق عليها أول أرضية جهاز مشي متعددة الاتجاهات ولعدة أشخاص في العالم.

مهندس ديزني لاني سموت على أرضية HoloTile

الشكل 8. مهندس Disney Lanny Smoot يظهر على أحدث ابتكاراته، أرضية HoloTile.

يمكنها التحرك تحت أي شخص أو كائن مثل التحريك الذهني لتجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه، وتجنب الاصطدامات أثناء وجودك عليها. يمكن أيضاً وضع أرضية HoloTile من Disney على المسارح للرقص والتحرك بطرق إبداعية.

Link to this sectionجهاز Vision Pro من Apple#

في 2 فبراير 2024، طرحت Apple سماعة Vision Pro المنتظرة بشدة في السوق. تحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. تلبي سماعة Vision Pro احتياجات جمهور متنوع من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أنه تم تحسين أكثر من 600 تطبيق، تتراوح من أدوات الإنتاجية إلى الألعاب وخدمات الترفيه، لـ Vision Pro عند إطلاقها.

Link to this sectionنموذج Devin من Cognition#

في 12 مارس 2024، أصدرت Cognition مساعد هندسة برمجيات يسمى Devin. Devin هو المحاولة الأولى في العالم لمهندس برمجيات ذكاء اصطناعي مستقل. على عكس مساعدي البرمجة التقليديين الذين يقدمون اقتراحات أو يكملون مهاماً محددة، تم تصميم Devin للتعامل مع مشاريع تطوير البرمجيات بالكامل من المفهوم الأولي حتى الاكتمال.

يمكنه تعلم تقنيات جديدة، وبناء وتطوير تطبيقات كاملة، وإيجاد وإصلاح الأخطاء، وتدريب نماذجه الخاصة، والمساهمة في قواعد الأكواد مفتوحة المصدر والإنتاجية، وحتى تولي وظائف تطوير حقيقية من مواقع مثل Upwork.

مقارنة Devin مع نماذج أخرى

الشكل 9. مقارنة Devin مع نماذج أخرى.

تم تقييم Devin على SWE-bench، وهو معيار صعب يطلب من الوكلاء حل مشاكل GitHub الواقعية الموجودة في المشاريع مفتوحة المصدر مثل Django وscikit-learn. نجح في حل 13.86% من المشكلات من البداية إلى النهاية، مقارنة بـ 1.96% لأفضل أداء سابق.

Link to this sectionإشارات شرفية#

لقد حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكنة. ولكن، إليك بعض الإشارات الشرفية الأخرى.

  • نموذج LATTE3D من NVIDIA، الذي تم الإعلان عنه في 21 مارس 2024، هو نموذج ذكاء اصطناعي لتحويل النص إلى 3D ينشئ تمثيلات 3D فورية من الـ prompts النصية.
  • بدأ تدريب مولد النص إلى فيديو الجديد من Midjourney، الذي أشار إليه الرئيس التنفيذي David Holz، في يناير ومن المتوقع إطلاقه قريباً.
  • تعزيزاً لثورة الـ AI PC، أصدرت Lenovo جهاز ThinkBook 13x بتقنية E Ink Prism وأجهزة كمبيوتر محمولة عالية الأداء تعمل بالذكاء الاصطناعي في 8 يناير 2024.

Link to this sectionابقَ على اطلاع باتجاهات الذكاء الاصطناعي معنا!#

شهدت بداية عام 2024 تطورات رائدة في الذكاء الاصطناعي والعديد من المعالم التكنولوجية الرئيسية. لكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن أحدث تطورات الذكاء الاصطناعي، فإن Ultralytics تغطي احتياجاتك.

اطلع على مستودع GitHub الخاص بنا لرؤية أحدث مساهماتنا في الرؤية الحاسوبية والذكاء الاصطناعي. يمكنك أيضاً الاطلاع على صفحات الحلول الخاصة بنا لمعرفة كيف يتم استخدام الذكاء الاصطناعي في صناعات مثل التصنيع والرعاية الصحية.

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة