يولو فيجن شنتشن
شنتشن
انضم الآن

شرح YOLO12: تطبيقات وحالات استخدام واقعية

أبيرامي فينا

5 دقائق قراءة

26 فبراير، 2025

اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات

رؤية الحاسوب هي فرع من فروع الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. إنه مجال يتقدم بوتيرة مذهلة لأن باحثي الذكاء الاصطناعي والمطورين يدفعون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائمًا إلى جعل النماذج أسرع وأكثر ذكاءً وكفاءة. أحد أحدث الاختراقات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.

تم تطوير YOLO12 بواسطة باحثين من جامعة بافالو، جامعة ولاية نيويورك (SUNY)، وجامعة الأكاديمية الصينية للعلوم. في نهج جديد فريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأساسية من الصورة بدلاً من معالجة كل شيء بالتساوي. 

كما أنها تتميز بتقنية FlashAttention، وهي تقنية تسرع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه للمنطقة، مصممة لتقليد الطريقة التي يركز بها البشر بشكل طبيعي على الكائنات المركزية.

تجعل هذه التحسينات YOLO12n أكثر دقة بنسبة 2.1٪ من YOLOv10n و YOLO12m أكثر دقة بنسبة + 1.0٪ من YOLO11m. ومع ذلك، يأتي هذا مع مقايضة - YOLO12n أبطأ بنسبة 9٪ من YOLOv10n، و YOLO12m أبطأ بنسبة 3٪ من YOLO11m.

__wf_reserved_inherit
الشكل 1. مثال على استخدام YOLO12 للكشف عن الكائنات.

في هذه المقالة، سوف نستكشف ما الذي يميز YOLO12، وكيف تتم مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.

الطريق إلى إصدار YOLO12

تعتبر سلسلة نماذج YOLO مجموعة من نماذج رؤية الكمبيوتر المصممة للكشف عن الكائنات في الوقت الفعلي، مما يعني أنها يمكنها تحديد وتحديد مواقع الكائنات في الصور ومقاطع الفيديو بسرعة. بمرور الوقت، تحسن كل إصدار من حيث السرعة والدقة والكفاءة.

على سبيل المثال، أصبح Ultralytics YOLOv5، الذي تم إصداره في عام 2020، مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التدريب والتوزيع المخصص. في وقت لاحق، قام Ultralytics YOLOv8 بتحسين ذلك من خلال تقديم دعم إضافي لمهام رؤية الكمبيوتر مثل تجزئة المثيل وتتبع الكائنات. 

ركزت Ultralytics YOLO11 مؤخرًا على تحسين المعالجة في الوقت الفعلي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، كان لدى YOLO11m معلمات أقل بنسبة 22% من YOLOv8m، ولكنها لا تزال تقدم أداءً أفضل في الكشف على مجموعة بيانات COCO، وهي معيار مستخدم على نطاق واسع لتقييم نماذج الكشف عن الكائنات.

بالاعتماد على هذه التطورات، يقدم YOLO12 تحولًا في كيفية معالجة المعلومات المرئية. فبدلاً من معاملة جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة مع السعي إلى أن يكون أكثر دقة.

الميزات الرئيسية لـ YOLO12

يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الفعلي. فيما يلي نظرة عامة على الميزات الرئيسية في YOLO12:

  • هندسة تركز على الانتباه: بدلاً من معاملة كل جزء من الصورة بالتساوي، يركز YOLO12 على المناطق الأكثر أهمية. هذا يحسن الدقة ويقلل من المعالجة غير الضرورية، مما يجعل الكشف أكثر حدة وكفاءة، حتى في الصور المزدحمة.
  • FlashAttention: يعمل YOLO12 على تسريع تحليل الصور مع استخدام ذاكرة أقل. بفضل FlashAttention (خوارزمية فعالة من حيث الذاكرة)، فإنه يحسن معالجة البيانات، ويقلل من إجهاد الأجهزة ويجعل المهام في الوقت الفعلي أكثر سلاسة وموثوقية.
  • شبكات تجميع الطبقات الفعالة المتبقية (R-ELAN): تنظم YOLO12 طبقاتها بكفاءة أكبر باستخدام R-ELAN، مما يحسن كيفية معالجة النموذج للبيانات والتعلم منها. وهذا يجعل التدريب أكثر استقرارًا، والتعرف على الكائنات أكثر وضوحًا، ومتطلبات الحوسبة أقل، لذلك يعمل بكفاءة عبر البيئات المختلفة.

لفهم كيفية عمل هذه الميزات في الحياة الواقعية، ضع في اعتبارك مركزًا للتسوق. يمكن أن يساعد YOLO12 في تتبع المتسوقين وتحديد ديكورات المتجر مثل النباتات المحفوظة في أصص أو اللافتات الترويجية واكتشاف العناصر في غير مكانها أو المهجورة. 

تساعده بنيته التي تركز على الانتباه على التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون زيادة التحميل على النظام. هذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تصميمات المتاجر وتعزيز تجربة التسوق الشاملة.

__wf_reserved_inherit
الشكل 2. اكتشاف الأشياء في مركز تسوق باستخدام YOLO12.

مع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:

  • أوقات تدريب أبطأ: نظرًا لبنيته، يتطلب YOLO12 وقت تدريب أطول مقارنة بـ YOLO11.
  • تحديات التصدير: قد يواجه بعض المستخدمين صعوبات عند تصدير نماذج YOLO12، خاصة عند دمجها في بيئات نشر محددة.

فهم المعايير القياسية لأداء YOLO12

يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية احتياجات مختلفة. تعطي الإصدارات الأصغر (nano و small) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة الطرفية. تحقق الإصدارات المتوسطة والكبيرة توازنًا بين السرعة و الدقة، بينما تم تصميم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.

مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر اختبارات الأداء أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، وتحقق متوسط دقة أعلى (mAP). 

مع ذلك، تعالج بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، الصور بشكل أبطأ من YOLO11، مما يوضح وجود مفاضلة بين دقة الاكتشاف والسرعة. على الرغم من ذلك، يظل YOLO12 فعالاً، ويتطلب عددًا أقل من المعلمات مقارنة بالعديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الخام.

__wf_reserved_inherit
الشكل 3. مقارنة بين Ultralytics YOLO11 و YOLO12.

استخدام YOLO12 من خلال حزمة Ultralytics Python

يدعم حزمة Ultralytics Python برنامج YOLO12 وهو سهل الاستخدام، مما يجعله في متناول المبتدئين والمحترفين على حد سواء. ببضعة أسطر فقط من التعليمات البرمجية، يمكن للمستخدمين تحميل النماذج المدربة مسبقًا وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات إعداد معقدة.

على سبيل المثال، إليك الخطوات التي ستتبعها لاستخدام YOLO12 للكشف عن الأجسام:

  • تثبيت حزمة Ultralytics: أولاً، قم بتثبيت حزمة Ultralytics Python، التي توفر الأدوات اللازمة لتشغيل YOLO12 بكفاءة. وهذا يضمن إعداد جميع التبعيات بشكل صحيح.
  • تحميل نموذج YOLO12 مُدرَّب مسبقًا: اختر متغير YOLO12 المناسب (nano أو small أو medium أو large أو extra large) بناءً على مستوى الدقة والسرعة المطلوبين لمهمتك.
  • تقديم صورة أو مقطع فيديو: أدخل ملف صورة أو مقطع فيديو تريد تحليله. يمكن لـ YOLO12 أيضًا معالجة بث الفيديو المباشر للكشف في الوقت الفعلي.
  • تشغيل عملية الاكتشاف: يفحص النموذج البيانات المرئية، ويحدد الكائنات، ويضع مربعات إحاطة حولها. يصنف كل كائن تم اكتشافه بالصنف المتوقع ودرجة الثقة.
  • ضبط إعدادات الاكتشاف: يمكنك أيضًا تعديل معلمات مثل عتبات الثقة لضبط دقة الاكتشاف والأداء.
  • حفظ أو استخدام المخرجات: يمكن حفظ الصورة أو الفيديو المعالج، الذي يحتوي الآن على كائنات مكتشفة، أو دمجه في تطبيق لمزيد من التحليل أو الأتمتة أو اتخاذ القرارات.

تجعل هذه الخطوات YOLO12 سهل الاستخدام لمجموعة متنوعة من التطبيقات، من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.

تطبيقات YOLO12 العملية

يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه للكشف عن الأجسام، وتقسيم المثيلات، وتصنيف الصور، وتقدير الوضعية، والكشف عن الأجسام الموجهة (OBB). 

__wf_reserved_inherit
الشكل 4. يدعم YOLO12 مهام مثل اكتشاف الكائنات وتجزئة المثيلات.

ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنة بالإصدارات السابقة. هذه المقايضة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:

  • التصوير الطبي: يمكن تدريب YOLO12 بشكل مخصص للكشف عن الأورام أو التشوهات في الأشعة السينية والتصوير بالرنين المغناطيسي بدقة عالية، مما يجعله أداة مفيدة للأطباء وأخصائيي الأشعة الذين يحتاجون إلى تحليل دقيق للصور للتشخيص.
  • مراقبة الجودة في التصنيع: يمكن أن يساعد في تحديد عيوب المنتج أثناء عملية الإنتاج، مما يضمن وصول العناصر عالية الجودة فقط إلى السوق مع تقليل النفايات وتحسين الكفاءة.
  • التحليل الجنائي: يمكن لوكالات إنفاذ القانون إجراء تعديلات دقيقة على YOLO12 لتحليل لقطات المراقبة وجمع الأدلة. في التحقيقات الجنائية، تعتبر الدقة أمرًا حيويًا لتحديد التفاصيل الرئيسية.
  • الزراعة الدقيقة: يمكن للمزارعين استخدام YOLO12 لتحليل صحة المحاصيل واكتشاف الأمراض أو تفشي الآفات ومراقبة ظروف التربة. تساعد التقييمات الدقيقة على تحسين الاستراتيجيات الزراعية، مما يؤدي إلى تحسين الإنتاجية وإدارة الموارد.

بدء استخدام YOLO12

قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات الضرورية.

من الناحية الفنية، يمكن لـ YOLO12 أن يعمل على أي وحدة معالجة رسومات مخصصة (GPU). بشكل افتراضي، لا يتطلب FlashAttention، لذلك يمكن أن يعمل على معظم أنظمة وحدات معالجة الرسومات بدونها. ومع ذلك، يمكن أن يكون تمكين FlashAttention مفيدًا بشكل خاص عند العمل مع مجموعات بيانات كبيرة أو صور عالية الدقة، لأنه يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة. 

لاستخدام FlashAttention، ستحتاج إلى وحدة معالجة رسومات NVIDIA من إحدى هذه السلاسل: Turing (T4, Quadro RTX)، Ampere (RTX 30 series, A30, A40, A100)، Ada Lovelace (RTX 40 series)، أو Hopper (H100, H200).

مع الأخذ في الاعتبار سهولة الاستخدام وإمكانية الوصول، لا تدعم حزمة Ultralytics Python حتى الآن استنتاج FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا تقنيًا للغاية. لمعرفة المزيد حول كيفية البدء في استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.

النقاط الرئيسية

مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيلات وتصنيف الصور من خلال معالجة تتمحور حول الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.

في الوقت نفسه، أصبح مجال رؤية الحاسوب أكثر سهولة من أي وقت مضى. YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python، ومع تركيزه على الدقة بدلًا من السرعة، فهو مناسب تمامًا للتصوير الطبي والفحوصات الصناعية والروبوتات - وهي التطبيقات التي يكون فيها الدقة أمرًا أساسيًا.

هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الرؤية الحاسوبية في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا واجعل مشاريع Vision AI الخاصة بك تنبض بالحياة. 🚀

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة