اكتشف رؤى مثيرة للاهتمام من جلسة نقاش في مؤتمر YOLO Vision 2024. اكتشف كيف يُشكّل الذكاء الاصطناعي التوليدي الطريق أمام نماذج الذكاء الاصطناعي في Vision في الوقت الفعلي.
اكتشف رؤى مثيرة للاهتمام من جلسة نقاش في مؤتمر YOLO Vision 2024. اكتشف كيف يُشكّل الذكاء الاصطناعي التوليدي الطريق أمام نماذج الذكاء الاصطناعي في Vision في الوقت الفعلي.
الذكاء الاصطناعي التوليدي هو فرع من فروع الذكاء الاصطناعي (AI) يقوم بإنشاء محتوى جديد، مثل الصور أو النصوص أو الصوت، عن طريق تعلم الأنماط من البيانات الموجودة. بفضل التطورات الأخيرة، يمكن استخدامه الآن لإنتاج محتوى واقعي للغاية غالبًا ما يحاكي الإبداع البشري.
ومع ذلك، يتجاوز تأثير الذكاء الاصطناعي التوليدي مجرد إنشاء المحتوى. فمع استمرار تطور نماذج الرؤية الحاسوبية في الوقت الحقيقي مثل نماذجUltralytics YOLO يعيد الذكاء الاصطناعي التوليدي أيضاً تعريف كيفية معالجة البيانات المرئية وزيادتها، مما يمهد الطريق لتطبيقات مبتكرة في سيناريوهات العالم الحقيقي.
كان هذا التحوّل التكنولوجي الجديد موضوعاً مثيراً للاهتمام للنقاش في مؤتمر YOLO Vision 2024 (YV24)، وهو حدث سنوي مختلط استضافته Ultralytics. شهد مؤتمر YV24 اجتماع عشاق الذكاء الاصطناعي وقادة الصناعة لمناقشة أحدث الإنجازات في مجال الرؤية الحاسوبية. ركزت الفعالية على الابتكار والكفاءة ومستقبل حلول الذكاء الاصطناعي في الوقت الحقيقي.
كان من أبرز الأحداث الرئيسية للفعالية حلقة نقاشية حول YOLO في عصر الذكاء الاصطناعي التوليدي". شارك في الجلسة جلين جوتشر، المؤسس والرئيس التنفيذي لشركة Ultralytics وجينغ تشيو، كبير مهندسي التعلم الآلي في Ultralytics وآو وانغ من جامعة تسينغهوا. استكشفوا كيف يؤثر الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية وتحديات بناء نماذج الذكاء الاصطناعي العملية.
في هذه المقالة، سوف نعيد النظر في الأفكار الرئيسية من مناقشتهم ونلقي نظرة فاحصة على كيف يقوم الذكاء الاصطناعي التوليدي بتحويل Vision AI.
إلى جانب جلين جوتشر، لعب العديد من المهندسين المهرة دوراً حيوياً في تطوير نماذجYOLO الخاصة بشركة Ultralytics . وروى أحدهم، وهو جينغ تشيو، بدايته غير المتوقعة مع YOLO. وأوضح أن شغفه بالذكاء الاصطناعي بدأ خلال سنوات دراسته الجامعية. وقد أمضى وقتاً طويلاً في استكشاف هذا المجال والتعرف عليه. استذكر جينغ تشيو كيف تواصل مع جلين جوتشر على GitHub وشارك في مشاريع الذكاء الاصطناعي المختلفة.
بالإضافة إلى ما قالته Jing Qiu، وصف Glenn Jocher موقع GitHub بأنه "طريقة رائعة للمشاركة - حيث يجتمع أشخاص لم تقابلهم من قبل لمساعدة بعضهم البعض، والمساهمة في عمل بعضهم البعض. إنه مجتمع رائع وطريقة رائعة حقًا للبدء في مجال الذكاء الاصطناعي."

اهتمام جينغ تشيو بالذكاء الاصطناعي وعمله على Ultralytics YOLOv5 ساعد في تحسين النموذج. وفي وقت لاحق، لعب دورًا رئيسيًا في تطوير Ultralytics YOLOv8الذي أدخل المزيد من التحسينات. ووصفها بأنها رحلة مذهلة. اليوم، يواصل جينغ تشيو التحسينات والعمل على نماذج مثل Ultralytics YOLO11.
انضم إلى حلقة النقاش عن بعد من الصين، وقدم آو وانغ نفسه كطالب دكتوراه. في البداية، درس هندسة البرمجيات، لكن شغفه بالذكاء الاصطناعي قاده إلى التحول نحو رؤية الحاسوب والتعلم العميق.
كان أول لقاء له مع نموذج YOLO الشهير أثناء تجربة تقنيات ونماذج الذكاء الاصطناعي المختلفة. وقد أُعجب بسرعته ودقته، مما ألهمه للتعمق أكثر في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام. في الآونة الأخيرة، ساهم أو وانغ في YOLOv10 وهو إصدار حديث من نموذج YOLO . ركز بحثه على تحسين النموذج ليكون أسرع وأكثر دقة.
ثم، بدأ الفريق في مناقشة الذكاء الاصطناعي التوليدي، وأشارت جينغ تشيو إلى أن الذكاء الاصطناعي التوليدي ورؤية الذكاء الاصطناعي لهما أغراض مختلفة تمامًا. يقوم الذكاء الاصطناعي التوليدي بإنشاء أو توليد أشياء مثل النصوص والصور ومقاطع الفيديو، بينما تحلل رؤية الذكاء الاصطناعي ما هو موجود بالفعل، وخاصة الصور.
أوضح جلين جوشر أن الحجم يمثل فرقاً كبيراً أيضاً. فنماذج الذكاء الاصطناعي التوليدي ضخمة، وغالباً ما تحتوي على مليارات المعلمات - الإعدادات الداخلية التي تساعد النموذج على التعلم من البيانات. أما نماذج الرؤية الحاسوبية فهي أصغر بكثير. وقال: "أصغر نموذج YOLO لدينا هو أصغر بحوالي ألف مرة من أصغر نموذج LLM [نموذج اللغة الكبيرة]. أي 3 ملايين معلمة مقارنةً بثلاثة مليارات معلمة."

وأضاف جينغ تشيو أن عمليات التدريب والنشر الخاصة بالذكاء الاصطناعي التوليدي والرؤية الحاسوبية مختلفة جداً أيضاً. فالذكاء الاصطناعي التوليدي يحتاج إلى خوادم ضخمة وقوية لتشغيله. أما النماذج مثل YOLO من ناحية أخرى، فهي مصممة لتحقيق الكفاءة ويمكن تدريبها ونشرها على أجهزة قياسية. وهذا يجعل نماذج Ultralytics YOLO أكثر عملية للاستخدام في العالم الحقيقي.
على الرغم من اختلافهما، إلا أن هذين المجالين بدآ في التشابك. أوضح جلين جوتشر أن الذكاء الاصطناعي التوليدي يجلب تطورات جديدة إلى رؤية الذكاء الاصطناعي، مما يجعل النماذج أكثر ذكاءً وكفاءة.
لقد تطور الذكاء الاصطناعي التوليدي بسرعة، وتؤثر هذه الاختراقات على العديد من المجالات الأخرى للذكاء الاصطناعي، بما في ذلك الرؤية الحاسوبية. بعد ذلك، دعنا نسير في بعض الأفكار الرائعة من اللجنة حول هذا الموضوع.
في وقت مبكر من الجلسة، أوضح جلين يوخر أن أفكار التعلم الآلي كانت موجودة منذ فترة طويلة، ولكن أجهزة الكمبيوتر لم تكن قوية بما يكفي لجعلها تعمل. احتاجت أفكار الذكاء الاصطناعي إلى أجهزة أقوى لتحويلها إلى حقيقة.
لقد غير صعود وحدات معالجة الرسومات (GPUs) على مدار العشرين عامًا الماضية مع إمكانات المعالجة المتوازية كل شيء. لقد جعلوا تدريب نماذج الذكاء الاصطناعي أسرع وأكثر كفاءة، مما سمح بتطوير التعلم العميق بوتيرة سريعة.
في الوقت الحاضر، تستخدم رقاقات الذكاء الاصطناعي مثل وحدات معالجةTensor (TPUs ) ووحدات معالجة الرسومات المحسّنة طاقة أقل مع التعامل مع نماذج أكبر وأكثر تعقيداً. وقد جعل ذلك الذكاء الاصطناعي أكثر سهولة وفائدة في تطبيقات العالم الحقيقي.
مع كل تحسين جديد في الأجهزة، أصبحت تطبيقات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية أكثر قوة. هذه التطورات تجعل الذكاء الاصطناعي في الوقت الفعلي أسرع وأكثر كفاءة وجاهزًا للاستخدام في المزيد من الصناعات.
عندما سُئلت Jing Qiu عن كيفية تأثير الذكاء الاصطناعي التوليدي على رؤية الكمبيوتر، قالت إن المحولات (transformers) - النماذج التي تساعد الذكاء الاصطناعي على التركيز على الأجزاء الأكثر أهمية في الصورة - قد غيرت الطريقة التي يفهم بها الذكاء الاصطناعي الصور ويعالجها. كانت الخطوة الكبيرة الأولى هي DETR (Detection Transformer)، التي استخدمت هذا النهج الجديد للكشف عن الكائنات. لقد حسّن الدقة ولكنه واجه مشكلات في الأداء جعلته أبطأ في بعض الحالات.
لحل هذه المشكلة، ابتكر الباحثون نماذج هجينة مثل RT-DETR. وتجمع هذه النماذج بين الشبكات العصبية التلافيفية (CNNs، وهي نماذج تعلُّم عميقة تتعلم وتستخرج الميزات من الصور تلقائياً) والمحوّلات، مما يحقق التوازن بين السرعة والدقة. يستفيد هذا النهج من مزايا المحولات مع جعل اكتشاف الكائنات أسرع.
مثير للاهتمام YOLOv10 يستخدم طبقات الانتباه القائمة على المحولات (وهي أجزاء من النموذج تعمل مثل الأضواء الكاشفة لإبراز المناطق الأكثر أهمية في الصورة مع تجاهل التفاصيل الأقل أهمية) لتعزيز أدائه.
ذكر آو وانغ أيضًا كيف يغير الذكاء الاصطناعي التوليدي الطريقة التي يتم بها تدريب النماذج. تساعد تقنيات مثل نمذجة الصور المقنعة الذكاء الاصطناعي على التعلم من الصور بكفاءة أكبر، مما يقلل الحاجة إلى مجموعات بيانات كبيرة مصنفة يدويًا. وهذا يجعل تدريب الرؤية الحاسوبية أسرع وأقل استهلاكًا للموارد.
من الأفكار الرئيسية الأخرى التي ناقشها الفريق كانت كيف يمكن للذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري أن يجتمعا لبناء نماذج أكثر قدرة. أوضح غلين يوخر أنه على الرغم من أن هذين النهجين لهما نقاط قوة مختلفة، إلا أن الجمع بينهما يمكن أن يفتح إمكانيات جديدة.
على سبيل المثال، غالبًا ما تقوم نماذج الذكاء الاصطناعي المرئي مثل YOLO بتقسيم الصورة إلى شبكة لتحديد الأشياء. يمكن لهذه الطريقة القائمة على الشبكة أن تساعد النماذج اللغوية على تحسين قدرتها على تحديد التفاصيل ووصفها على حد سواء - وهو تحدٍ تواجهه العديد من النماذج اللغوية اليوم. في الأساس، قد يؤدي دمج هذه التقنيات إلى أنظمة يمكنها detect ما تراه بدقة وشرحه بوضوح.

يتقدم الذكاء الاصطناعي التوليدي والرؤية الحاسوبية معًا. بينما يقوم الذكاء الاصطناعي التوليدي بإنشاء الصور ومقاطع الفيديو، فإنه يحسن أيضًا تحليل الصور ومقاطع الفيديو من خلال طرح أفكار مبتكرة جديدة يمكن أن تجعل نماذج Vision AI أكثر دقة وكفاءة.
في هذه الحلقة النقاشية الثاقبة YV24، شارك كل من جلين جوتشر، وجينغ تشيو، وآو وانغ أفكارهم حول كيف تشكل هذه التقنيات المستقبل. مع تحسين أجهزة الذكاء الاصطناعي، سيستمر الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري في التطور، مما يؤدي إلى مزيد من الابتكارات. يعمل هذان المجالان معًا لإنشاء ذكاء اصطناعي أكثر ذكاءً وأسرع وفائدة للحياة اليومية.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول Vision AI. تحقق من خيارات الترخيص الخاصة بنا لبدء مشاريع الرؤية الحاسوبية الخاصة بك. هل أنت مهتم بالابتكارات مثل الذكاء الاصطناعي في التصنيع أو الرؤية الحاسوبية في القيادة الذاتية؟ قم بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد.