اكتشف رؤى مثيرة للاهتمام من حلقة نقاش في YOLO Vision 2024. استكشف كيف يشكل الذكاء الاصطناعي التوليدي الطريق إلى الأمام لنماذج الرؤية الاصطناعية في الوقت الفعلي.
اكتشف رؤى مثيرة للاهتمام من حلقة نقاش في YOLO Vision 2024. استكشف كيف يشكل الذكاء الاصطناعي التوليدي الطريق إلى الأمام لنماذج الرؤية الاصطناعية في الوقت الفعلي.
الذكاء الاصطناعي التوليدي هو فرع من فروع الذكاء الاصطناعي (AI) يقوم بإنشاء محتوى جديد، مثل الصور أو النصوص أو الصوت، عن طريق تعلم الأنماط من البيانات الموجودة. بفضل التطورات الأخيرة، يمكن استخدامه الآن لإنتاج محتوى واقعي للغاية غالبًا ما يحاكي الإبداع البشري.
ومع ذلك، فإن تأثير الذكاء الاصطناعي التوليدي يتجاوز مجرد إنشاء المحتوى. مع استمرار تطور نماذج رؤية الكمبيوتر في الوقت الفعلي مثل نماذج Ultralytics YOLO، فإن الذكاء الاصطناعي التوليدي يعيد أيضًا تعريف كيفية معالجة البيانات المرئية وزيادتها، مما يمهد الطريق لتطبيقات مبتكرة في سيناريوهات العالم الحقيقي.
كان هذا التحول التكنولوجي الجديد موضوعًا مثيرًا للاهتمام في YOLO Vision 2024 (YV24)، وهو حدث هجين سنوي تستضيفه Ultralytics. شهد YV24 تجمعًا لعشاق الذكاء الاصطناعي وقادة الصناعة لمناقشة أحدث الاختراقات في مجال الرؤية الحاسوبية. ركز الحدث على الابتكار والكفاءة ومستقبل حلول الذكاء الاصطناعي في الوقت الفعلي.
كانت إحدى أبرز فعاليات الحدث حلقة نقاش حول YOLO في عصر الذكاء الاصطناعي التوليدي. ضمت حلقة النقاش جلين جوتشر، المؤسس والرئيس التنفيذي لشركة Ultralytics، و جينغ تشيو، مهندس أول لتعلم الآلة في Ultralytics، و آو وانغ من جامعة تسينغهوا. واستكشفوا كيف يؤثر الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية وتحديات بناء نماذج الذكاء الاصطناعي العملية.
في هذه المقالة، سوف نعيد النظر في الأفكار الرئيسية من مناقشتهم ونلقي نظرة فاحصة على كيف يقوم الذكاء الاصطناعي التوليدي بتحويل Vision AI.
إلى جانب جلين جوتشر، لعب العديد من المهندسين المهرة دورًا حيويًا في تطوير نماذج Ultralytics YOLO. أحد هؤلاء المهندسين، جينغ تشيو، روى بدايته غير المتوقعة مع YOLO. وأوضح أن شغفه بالذكاء الاصطناعي بدأ خلال سنوات دراسته الجامعية. لقد أمضى وقتًا طويلاً في استكشاف هذا المجال والتعلم عنه. وتذكر جينغ تشيو كيف تواصل مع جلين جوتشر على GitHub وشارك في العديد من مشاريع الذكاء الاصطناعي.
بالإضافة إلى ما قالته Jing Qiu، وصف Glenn Jocher موقع GitHub بأنه "طريقة رائعة للمشاركة - حيث يجتمع أشخاص لم تقابلهم من قبل لمساعدة بعضهم البعض، والمساهمة في عمل بعضهم البعض. إنه مجتمع رائع وطريقة رائعة حقًا للبدء في مجال الذكاء الاصطناعي."

ساعد اهتمام Jing Qiu بالذكاء الاصطناعي وعمله على Ultralytics YOLOv5 في تحسين النموذج. وفي وقت لاحق، لعب دورًا رئيسيًا في تطوير Ultralytics YOLOv8، الذي قدم المزيد من التحسينات. ووصفها بأنها رحلة رائعة. يواصل Jing Qiu اليوم تحسين النماذج والعمل عليها مثل Ultralytics YOLO11.
انضم إلى حلقة النقاش عن بعد من الصين، وقدم آو وانغ نفسه كطالب دكتوراه. في البداية، درس هندسة البرمجيات، لكن شغفه بالذكاء الاصطناعي قاده إلى التحول نحو رؤية الحاسوب والتعلم العميق.
كان أول لقاء له مع نموذج YOLO الشهير أثناء تجربة تقنيات ونماذج الذكاء الاصطناعي المختلفة. لقد أعجب بسرعته ودقته، مما ألهمه للتعمق في مهام الرؤية الحاسوبية مثل الكشف عن الكائنات. في الآونة الأخيرة، ساهم Ao Wang في YOLOv10، وهو إصدار حديث من نموذج YOLO. ركز بحثه على تحسين النموذج ليكون أسرع وأكثر دقة.
ثم، بدأ الفريق في مناقشة الذكاء الاصطناعي التوليدي، وأشارت جينغ تشيو إلى أن الذكاء الاصطناعي التوليدي ورؤية الذكاء الاصطناعي لهما أغراض مختلفة تمامًا. يقوم الذكاء الاصطناعي التوليدي بإنشاء أو توليد أشياء مثل النصوص والصور ومقاطع الفيديو، بينما تحلل رؤية الذكاء الاصطناعي ما هو موجود بالفعل، وخاصة الصور.
أكد جلين جوتشر أن الحجم يمثل فرقًا كبيرًا أيضًا. نماذج الذكاء الاصطناعي التوليدية ضخمة، وغالبًا ما تحتوي على مليارات المعلمات - الإعدادات الداخلية التي تساعد النموذج على التعلم من البيانات. نماذج رؤية الكمبيوتر أصغر بكثير. وقال: "أصغر نموذج YOLO لدينا أصغر بحوالي ألف مرة من أصغر نموذج لغوي كبير [Large Language Model]. لذا، 3 ملايين معلمة مقارنة بثلاثة مليارات."

وأضاف جينغ تشيو أن عمليات تدريب ونشر الذكاء الاصطناعي التوليدي والرؤية الحاسوبية مختلفة أيضًا. يحتاج الذكاء الاصطناعي التوليدي إلى خوادم ضخمة وقوية لتشغيله. من ناحية أخرى، تم تصميم نماذج مثل YOLO لتحقيق الكفاءة ويمكن تدريبها ونشرها على أجهزة قياسية. وهذا يجعل نماذج Ultralytics YOLO أكثر عملية للاستخدام في العالم الحقيقي.
على الرغم من اختلافهما، إلا أن هذين المجالين بدآ في التشابك. أوضح جلين جوتشر أن الذكاء الاصطناعي التوليدي يجلب تطورات جديدة إلى رؤية الذكاء الاصطناعي، مما يجعل النماذج أكثر ذكاءً وكفاءة.
لقد تطور الذكاء الاصطناعي التوليدي بسرعة، وتؤثر هذه الاختراقات على العديد من المجالات الأخرى للذكاء الاصطناعي، بما في ذلك الرؤية الحاسوبية. بعد ذلك، دعنا نسير في بعض الأفكار الرائعة من اللجنة حول هذا الموضوع.
في وقت مبكر من الجلسة، أوضح جلين يوخر أن أفكار التعلم الآلي كانت موجودة منذ فترة طويلة، ولكن أجهزة الكمبيوتر لم تكن قوية بما يكفي لجعلها تعمل. احتاجت أفكار الذكاء الاصطناعي إلى أجهزة أقوى لتحويلها إلى حقيقة.
لقد غير صعود وحدات معالجة الرسومات (GPUs) على مدار العشرين عامًا الماضية مع إمكانات المعالجة المتوازية كل شيء. لقد جعلوا تدريب نماذج الذكاء الاصطناعي أسرع وأكثر كفاءة، مما سمح بتطوير التعلم العميق بوتيرة سريعة.
في الوقت الحاضر، تستخدم شرائح الذكاء الاصطناعي مثل وحدات معالجة Tensor (TPUs) ووحدات معالجة الرسومات المحسّنة (GPUs) طاقة أقل مع معالجة نماذج أكبر وأكثر تعقيدًا. وقد جعل هذا الذكاء الاصطناعي أكثر سهولة في الوصول إليه وفائدة في التطبيقات الواقعية.
مع كل تحسين جديد في الأجهزة، أصبحت تطبيقات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية أكثر قوة. هذه التطورات تجعل الذكاء الاصطناعي في الوقت الفعلي أسرع وأكثر كفاءة وجاهزًا للاستخدام في المزيد من الصناعات.
عندما سُئلت Jing Qiu عن كيفية تأثير الذكاء الاصطناعي التوليدي على رؤية الكمبيوتر، قالت إن المحولات (transformers) - النماذج التي تساعد الذكاء الاصطناعي على التركيز على الأجزاء الأكثر أهمية في الصورة - قد غيرت الطريقة التي يفهم بها الذكاء الاصطناعي الصور ويعالجها. كانت الخطوة الكبيرة الأولى هي DETR (Detection Transformer)، التي استخدمت هذا النهج الجديد للكشف عن الكائنات. لقد حسّن الدقة ولكنه واجه مشكلات في الأداء جعلته أبطأ في بعض الحالات.
لحل هذه المشكلة، أنشأ الباحثون نماذج هجينة مثل RT-DETR. تجمع هذه النماذج بين الشبكات العصبية الالتفافية (CNNs، وهي نماذج تعلم عميق تتعلم وتستخرج الميزات من الصور تلقائيًا) والمحولات، مما يوازن بين السرعة والدقة. يستفيد هذا النهج من فوائد المحولات مع جعل الكشف عن الكائنات أسرع.
ومن المثير للاهتمام أن YOLOv10 يستخدم طبقات الانتباه القائمة على المحولات (أجزاء من النموذج تعمل كبقعة ضوء لتسليط الضوء على أهم المناطق في الصورة مع تجاهل التفاصيل الأقل أهمية) لتعزيز أدائه.
ذكر آو وانغ أيضًا كيف يغير الذكاء الاصطناعي التوليدي الطريقة التي يتم بها تدريب النماذج. تساعد تقنيات مثل نمذجة الصور المقنعة الذكاء الاصطناعي على التعلم من الصور بكفاءة أكبر، مما يقلل الحاجة إلى مجموعات بيانات كبيرة مصنفة يدويًا. وهذا يجعل تدريب الرؤية الحاسوبية أسرع وأقل استهلاكًا للموارد.
من الأفكار الرئيسية الأخرى التي ناقشها الفريق كانت كيف يمكن للذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري أن يجتمعا لبناء نماذج أكثر قدرة. أوضح غلين يوخر أنه على الرغم من أن هذين النهجين لهما نقاط قوة مختلفة، إلا أن الجمع بينهما يمكن أن يفتح إمكانيات جديدة.
على سبيل المثال، غالبًا ما تقوم نماذج Vision AI مثل YOLO بتقسيم الصورة إلى شبكة لتحديد الكائنات. يمكن أن تساعد هذه الطريقة القائمة على الشبكة نماذج اللغة على تحسين قدرتها على تحديد التفاصيل ووصفها - وهو تحد يواجهه العديد من نماذج اللغة اليوم. باختصار، قد يؤدي دمج هذه التقنيات إلى أنظمة يمكنها اكتشاف ما تراه وشرحه بوضوح.

يتقدم الذكاء الاصطناعي التوليدي والرؤية الحاسوبية معًا. بينما يقوم الذكاء الاصطناعي التوليدي بإنشاء الصور ومقاطع الفيديو، فإنه يحسن أيضًا تحليل الصور ومقاطع الفيديو من خلال طرح أفكار مبتكرة جديدة يمكن أن تجعل نماذج Vision AI أكثر دقة وكفاءة.
في هذه الحلقة النقاشية الثاقبة YV24، شارك كل من جلين جوتشر، وجينغ تشيو، وآو وانغ أفكارهم حول كيف تشكل هذه التقنيات المستقبل. مع تحسين أجهزة الذكاء الاصطناعي، سيستمر الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري في التطور، مما يؤدي إلى مزيد من الابتكارات. يعمل هذان المجالان معًا لإنشاء ذكاء اصطناعي أكثر ذكاءً وأسرع وفائدة للحياة اليومية.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول Vision AI. تحقق من خيارات الترخيص الخاصة بنا لبدء مشاريع الرؤية الحاسوبية الخاصة بك. هل أنت مهتم بالابتكارات مثل الذكاء الاصطناعي في التصنيع أو الرؤية الحاسوبية في القيادة الذاتية؟ قم بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد.