الذكاء الاصطناعي التوليدي يغير مسار مستقبل الرؤية الحاسوبية
اكتشف رؤى مثيرة للاهتمام من حلقة نقاشية في YOLO Vision 2024. استكشف كيف يشكل الذكاء الاصطناعي التوليدي الطريق المستقبلي لنماذج الرؤية الحاسوبية القائمة على الذكاء الاصطناعي واللحظية.

الذكاء الاصطناعي التوليدي هو فرع من فروع الذكاء الاصطناعي (AI) يقوم بإنشاء محتوى جديد، مثل الصور أو النصوص أو الصوت، عن طريق تعلم الأنماط من البيانات الموجودة. وبفضل التطورات الأخيرة، أصبح من الممكن استخدامه الآن لإنتاج محتوى واقعي للغاية يحاكي غالباً الإبداع البشري.
ومع ذلك، فإن تأثير الذكاء الاصطناعي التوليدي يتجاوز مجرد إنشاء المحتوى. فمع استمرار تطور نماذج الرؤية الحاسوبية في الوقت الفعلي مثل نماذج Ultralytics YOLO، يعمل الذكاء الاصطناعي التوليدي أيضاً على إعادة تعريف كيفية معالجة البيانات المرئية وتعزيزها، مما يمهد الطريق لتطبيقات مبتكرة في سيناريوهات العالم الحقيقي.
كان هذا التحول التكنولوجي الجديد موضوعاً مثيراً للنقاش في YOLO Vision 2024 (YV24)، وهو حدث هجين سنوي تستضيفه Ultralytics. شهد YV24 تجمع عشاق الذكاء الاصطناعي وقادة الصناعة لمناقشة أحدث الاختراقات في الرؤية الحاسوبية. ركز الحدث على الابتكار والكفاءة ومستقبل حلول الذكاء الاصطناعي في الوقت الفعلي.
أحد أبرز أحداث المؤتمر كان حلقة نقاش حول YOLO في عصر الذكاء الاصطناعي التوليدي. ضمت اللجنة Glenn Jocher، المؤسس والرئيس التنفيذي لشركة Ultralytics، وJing Qiu، مهندس تعلم الآلة الأول في Ultralytics، وAo Wang من جامعة تسينغhua. استكشفوا كيف يؤثر الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية وتحديات بناء نماذج ذكاء اصطناعي عملية.
في هذه المقالة، سنعيد استعراض الأفكار الرئيسية من نقاشهم ونلقي نظرة فاحصة على كيفية تحويل الذكاء الاصطناعي التوليدي لتقنية الرؤية الاصطناعية (Vision AI).
Link to this sectionتطوير نماذج Ultralytics YOLO#
إلى جانب Glenn Jocher، لعب العديد من المهندسين المهرة دوراً حيوياً في تطوير نماذج Ultralytics YOLO. أحد هؤلاء، Jing Qiu، روى بدايته غير المتوقعة مع YOLO. وأوضح أن شغفه بالذكاء الاصطناعي بدأ خلال سنوات دراسته الجامعية. قضى قدراً كبيراً من الوقت في استكشاف المجال والتعلم عنه. تذكر Jing Qiu كيف تواصل مع Glenn Jocher على GitHub وشارك في مشاريع ذكاء اصطناعي متنوعة.
إضافة إلى ما قاله Jing Qiu، وصف Glenn Jocher موقع GitHub بأنه "طريقة مذهلة للمشاركة - حيث يجتمع أشخاص لم تقابلهم قط لمساعدة بعضهم البعض، والمساهمة في عمل بعضهم البعض. إنه مجتمع رائع وطريقة ممتازة حقاً للبدء في مجال الذكاء الاصطناعي."

الشكل 1. Glenn Jocher و Jing Qiu يتحدثان على المسرح في YV24.
ساعد اهتمام Jing Qiu بالذكاء الاصطناعي وعمله على Ultralytics YOLOv5 في تحسين النموذج. لاحقاً، لعب دوراً رئيسياً في تطوير Ultralytics YOLOv8، الذي قدم تحسينات إضافية. وصفها بأنها رحلة لا تصدق. واليوم، يواصل Jing Qiu تحسين والعمل على نماذج مثل Ultralytics YOLO11.
Link to this sectionYOLOv10: مُحسَّن لأداء العالم الحقيقي#
انضم Ao Wang إلى حلقة النقاش عن بُعد من الصين، وقدم نفسه كطالب دكتوراه. في البداية، درس هندسة البرمجيات، لكن شغفه بالذكاء الاصطناعي قاده للتحول نحو الرؤية الحاسوبية والتعلم العميق.
كانت تجربته الأولى مع نموذج YOLO الشهير أثناء تجربة تقنيات ونماذج ذكاء اصطناعي متنوعة. لقد أُعجب بسرعته ودقته، مما ألهمه للتعمق في مهام الرؤية الحاسوبية مثل اكتشاف الكائنات. مؤخراً، ساهم Ao Wang في YOLOv10، وهو إصدار حديث من نموذج YOLO. ركز بحثه على تحسين النموذج ليكون أسرع وأكثر دقة.
Link to this sectionالاختلاف الرئيسي بين الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية#
بعد ذلك، بدأت اللجنة في مناقشة الذكاء الاصطناعي التوليدي، وأشار Jing Qiu إلى أن الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية لهما أغراض مختلفة جداً. يقوم الذكاء الاصطناعي التوليدي بإنشاء أو توليد أشياء مثل النصوص والصور ومقاطع الفيديو، بينما تقوم تقنية الرؤية الاصطناعية بتحليل ما هو موجود بالفعل، خاصة الصور.
سلط Glenn Jocher الضوء على أن الحجم يمثل فرقاً كبيراً أيضاً. نماذج الذكاء الاصطناعي التوليدي ضخمة، وغالباً ما تحتوي على مليارات المعلمات - وهي إعدادات داخلية تساعد النموذج على التعلم من البيانات. أما نماذج الرؤية الحاسوبية فهي أصغر بكثير. قال: "أصغر نموذج YOLO لدينا أصغر بحوالي ألف مرة من أصغر LLM [نموذج لغوي كبير]. أي 3 ملايين معلمة مقارنة بـ 3 مليارات."

الشكل 2. حلقة النقاش حول الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية في YV24.
أضاف Jing Qiu أن عمليات تدريب ونشر الذكاء الاصطناعي التوليدي والرؤية الحاسوبية تختلف أيضاً بشكل كبير. يحتاج الذكاء الاصطناعي التوليدي إلى خوادم ضخمة وقوية للعمل. من ناحية أخرى، تم بناء نماذج مثل YOLO من أجل الكفاءة ويمكن تدريبها ونشرها على أجهزة قياسية. هذا يجعل نماذج Ultralytics YOLO أكثر عملية للاستخدام في العالم الحقيقي.
على الرغم من اختلافهما، بدأ هذان المجالين في التداخل. أوضح Glenn Jocher أن الذكاء الاصطناعي التوليدي يجلب تطورات جديدة لتقنية الرؤية الاصطناعية، مما يجعل النماذج أكثر ذكاءً وكفاءة.
Link to this sectionتأثير الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية#
لقد تقدم الذكاء الاصطناعي التوليدي بسرعة، وتؤثر هذه الاختراقات على العديد من مجالات الذكاء الاصطناعي الأخرى، بما في ذلك الرؤية الحاسوبية. لنستعرض بعد ذلك بعض الأفكار الرائعة من اللجنة حول هذا الموضوع.
Link to this sectionتطورات الأجهزة تمكن ابتكارات الذكاء الاصطناعي#
في وقت مبكر من الجلسة، أوضح Glenn Jocher أن أفكار تعلم الآلة كانت موجودة منذ فترة طويلة، لكن أجهزة الكمبيوتر لم تكن قوية بما يكفي لجعلها تعمل. كانت أفكار الذكاء الاصطناعي بحاجة إلى أجهزة أقوى لتحويلها إلى واقع.
لقد غير صعود وحدات معالجة الرسومات (GPUs) على مدى العشرين عاماً الماضية، بقدرات المعالجة المتوازية، كل شيء. لقد جعلت تدريب نماذج الذكاء الاصطناعي أسرع وأكثر كفاءة، مما سمح للتعلم العميق بالتطور بخطى سريعة.
في الوقت الحاضر، تستخدم رقائق الذكاء الاصطناعي مثل TPUs (وحدات معالجة التنسور) ووحدات معالجة الرسومات المُحسَّنة طاقة أقل مع التعامل مع نماذج أكبر وأكثر تعقيداً. هذا جعل الذكاء الاصطناعي أكثر سهولة وفائدة في تطبيقات العالم الحقيقي.
مع كل تحسن جديد في الأجهزة، أصبحت تطبيقات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية أكثر قوة. هذه التطورات تجعل الذكاء الاصطناعي في الوقت الفعلي أسرع وأكثر كفاءة وجاهزاً للاستخدام في المزيد من الصناعات.
Link to this sectionكيف يشكل الذكاء الاصطناعي التوليدي نماذج اكتشاف الكائنات#
عندما سُئل عن كيفية تأثير الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية، قال Jing Qiu إن المحولات (Transformers) - وهي نماذج تساعد الذكاء الاصطناعي على التركيز على أهم أجزاء الصورة - قد غيرت طريقة فهم الذكاء الاصطناعي للصور ومعالجتها. كانت الخطوة الكبيرة الأولى هي DETR (محول الاكتشاف)، الذي استخدم هذا النهج الجديد لاكتشاف الكائنات. لقد حسن الدقة ولكنه واجه مشاكل في الأداء جعلته أبطأ في بعض الحالات.
ولحل هذه المشكلة، أنشأ الباحثون نماذج هجينة مثل RT-DETR. تجمع هذه النماذج بين الشبكات العصبية التلافيفية (CNNs، وهي نماذج تعلم عميق تتعلم وتستخرج الميزات من الصور تلقائياً) والمحولات، مما يوازن بين السرعة والدقة. يستفيد هذا النهج من مزايا المحولات مع جعل اكتشاف الكائنات أسرع.
من المثير للاهتمام أن YOLOv10 يستخدم طبقات انتباه تعتمد على المحولات (وهي أجزاء من النموذج تعمل مثل كشاف ضوئي لإبراز أهم المناطق في الصورة مع تجاهل التفاصيل الأقل صلة) لتعزيز أدائه.
ذكر Ao Wang أيضاً كيف يغير الذكاء الاصطناعي التوليدي طريقة تدريب النماذج. تساعد تقنيات مثل نمذجة الصور المقنعة الذكاء الاصطناعي على التعلم من الصور بكفاءة أكبر، مما يقلل الحاجة إلى مجموعات بيانات كبيرة مصنفة يدوياً. هذا يجعل تدريب الرؤية الحاسوبية أسرع وأقل استهلاكاً للموارد.
Link to this sectionمستقبل الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية#
فكرة رئيسية أخرى ناقشتها اللجنة هي كيف يمكن أن يجتمع الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية معاً لبناء نماذج أكثر قدرة. أوضح Glenn Jocher أنه على الرغم من أن هذين النهجين لديهما نقاط قوة مختلفة، إلا أن دمجهما يمكن أن يفتح احتمالات جديدة.
على سبيل المثال، غالباً ما تقسم نماذج الرؤية الاصطناعية مثل YOLO الصورة إلى شبكة لتحديد الكائنات. قد تساعد هذه الطريقة القائمة على الشبكة النماذج اللغوية على تحسين قدرتها على تحديد التفاصيل ووصفها في آن واحد - وهو تحد يواجهه العديد من النماذج اللغوية اليوم. في الجوهر، قد يؤدي دمج هذه التقنيات إلى أنظمة قادرة على اكتشاف ما تراه وشرحه بوضوح ودقة.

الشكل 3. مستقبل الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية. الصورة من إعداد المؤلف.
Link to this sectionأبرز النقاط#
يتقدم الذكاء الاصطناعي التوليدي والرؤية الحاسوبية معاً. فبينما يقوم الذكاء الاصطناعي التوليدي بإنشاء الصور ومقاطع الفيديو، فإنه يحسن أيضاً تحليل الصور والفيديو من خلال طرح أفكار مبتكرة جديدة يمكن أن تجعل نماذج الرؤية الاصطناعية أكثر دقة وكفاءة.
في حلقة نقاش YV24 الثاقبة هذه، شارك Glenn Jocher و Jing Qiu و Ao Wang أفكارهم حول كيفية تشكيل هذه التقنيات للمستقبل. ومع وجود أجهزة ذكاء اصطناعي أفضل، سيستمر الذكاء الاصطناعي التوليدي وتقنية الرؤية الاصطناعية في التطور، مما سيؤدي إلى المزيد من الابتكارات العظيمة. يعمل هذان المجالان معاً لإنشاء ذكاء اصطناعي أكثر ذكاءً وأسرع وأكثر فائدة للحياة اليومية.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن تقنية الرؤية الاصطناعية. تحقق من خيارات الترخيص لدينا لبدء مشاريع الرؤية الحاسوبية الخاصة بك. هل أنت مهتم بابتكارات مثل الذكاء الاصطناعي في التصنيع أو الرؤية الحاسوبية في القيادة الذاتية؟ قم بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد.






