Yolo فيجن شنتشن
شنتشن
انضم الآن

شرح YOLO12: تطبيقات وحالات استخدام واقعية

أبيرامي فينا

5 دقائق قراءة

26 فبراير، 2025

اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات

الرؤية الحاسوبية هي فرع من الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. وهو مجال يتطور بوتيرة مذهلة لأن باحثي ومطوري الذكاء الاصطناعي يتخطون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائماً إلى جعل النماذج أسرع وأذكى وأكثر كفاءة. أحد أحدث الإنجازات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.

تم تطوير YOLO12 بواسطة باحثين من جامعة بافالو، جامعة ولاية نيويورك (SUNY)، وجامعة الأكاديمية الصينية للعلوم. في نهج جديد فريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأساسية من الصورة بدلاً من معالجة كل شيء بالتساوي. 

كما أنها تتميز بتقنية FlashAttention، وهي تقنية تسرع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه للمنطقة، مصممة لتقليد الطريقة التي يركز بها البشر بشكل طبيعي على الكائنات المركزية.

تجعل هذه التحسينات YOLO12n أكثر دقة بنسبة 2.1٪ من YOLOv10n و YOLO12m أكثر دقة بنسبة + 1.0٪ من YOLO11m. ومع ذلك، يأتي هذا مع مقايضة - YOLO12n أبطأ بنسبة 9٪ من YOLOv10n، و YOLO12m أبطأ بنسبة 3٪ من YOLO11m.

__wf_reserved_inherit
الشكل 1. مثال على استخدام YOLO12 detect الأجسام.

في هذه المقالة، سوف نستكشف ما الذي يميز YOLO12، وكيف تتم مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.

الطريق إلى إصدار YOLO12

سلسلة نماذجYOLO عبارة عن مجموعة من نماذج الرؤية الحاسوبية المصممة للكشف عن الأجسام في الوقت الحقيقي، مما يعني أنها تستطيع تحديد الأجسام في الصور ومقاطع الفيديو وتحديد موقعها بسرعة. بمرور الوقت، تحسّن كل إصدار من حيث السرعة والدقة والكفاءة.

على سبيل المثال Ultralytics YOLOv5الذي تم إصداره في عام 2020، وأصبح مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التخصيص والنشر. لاحقًا Ultralytics YOLOv8 تحسين هذا الأمر من خلال تقديم دعم إضافي لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتتبع الكائنات. 

في الآونة الأخيرة Ultralytics YOLO11 على تحسين المعالجة في الوقت الحقيقي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، احتوى YOLO11m على معلمات أقل بنسبة 22% من YOLOv8m ومع ذلك حقق أداءً أفضل في الكشف على مجموعة بيانات COCO وهو معيار يستخدم على نطاق واسع لتقييم نماذج الكشف عن الأجسام.

بالاعتماد على هذه التطورات، يقدم YOLO12 تحولًا في كيفية معالجة المعلومات المرئية. فبدلاً من معاملة جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة مع السعي إلى أن يكون أكثر دقة.

الميزات الرئيسية لـ YOLO12

يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الفعلي. فيما يلي نظرة عامة على الميزات الرئيسية في YOLO12:

  • هندسة تركز على الانتباه: بدلاً من معاملة كل جزء من الصورة بالتساوي، يركز YOLO12 على المناطق الأكثر أهمية. هذا يحسن الدقة ويقلل من المعالجة غير الضرورية، مما يجعل الكشف أكثر حدة وكفاءة، حتى في الصور المزدحمة.
  • FlashAttention: يعمل YOLO12 على تسريع تحليل الصور مع استخدام ذاكرة أقل. بفضل FlashAttention (خوارزمية فعالة من حيث الذاكرة)، فإنه يحسن معالجة البيانات، ويقلل من إجهاد الأجهزة ويجعل المهام في الوقت الفعلي أكثر سلاسة وموثوقية.
  • شبكات تجميع الطبقات الفعالة المتبقية (R-ELAN): تنظم YOLO12 طبقاتها بكفاءة أكبر باستخدام R-ELAN، مما يحسن كيفية معالجة النموذج للبيانات والتعلم منها. وهذا يجعل التدريب أكثر استقرارًا، والتعرف على الكائنات أكثر وضوحًا، ومتطلبات الحوسبة أقل، لذلك يعمل بكفاءة عبر البيئات المختلفة.

لفهم كيفية عمل هذه الميزات في الحياة الواقعية، فكر في مركز تسوق. يمكن أن يساعدك YOLO12 في track المتسوقين، وتحديد ديكورات المتاجر مثل أصص النباتات أو اللافتات الترويجية، واكتشاف العناصر التي تم وضعها في غير مكانها أو المتروكة. 

تساعده بنيته التي تركز على الانتباه على التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون زيادة التحميل على النظام. هذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تصميمات المتاجر وتعزيز تجربة التسوق الشاملة.

__wf_reserved_inherit
الشكل 2. اكتشاف الأشياء في مركز تسوق باستخدام YOLO12.

مع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:

  • أوقات تدريب أبطأ: نظرًا لبنيته، يتطلب YOLO12 وقت تدريب أطول مقارنةً بـ YOLO11.
  • تحديات التصدير: قد يواجه بعض المستخدمين صعوبات عند تصدير نماذج YOLO12، خاصة عند دمجها في بيئات نشر محددة.

فهم المعايير القياسية لأداء YOLO12

يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية احتياجات مختلفة. تعطي الإصدارات الأصغر (nano و small) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة الطرفية. تحقق الإصدارات المتوسطة والكبيرة توازنًا بين السرعة و الدقة، بينما تم تصميم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.

مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر الاختبارات المعيارية أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، حيث تحقق متوسط دقة أعلى في المتوسطmAP). 

ومع ذلك، فإن بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، تعالج الصور بشكل أبطأ من YOLO11 مما يُظهر مفاضلة بين دقة الكشف والسرعة. على الرغم من ذلك، يظل YOLO12 فعّالاً، حيث يتطلب معلمات أقل من العديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الأولية.

__wf_reserved_inherit
الشكل 3. مقارنة بين Ultralytics YOLO11 و YOLO12.

استخدام YOLO12 من خلال حزمة Ultralytics Python

برنامج YOLO12 مدعوم من حزمةUltralytics Python وهو سهل الاستخدام، مما يجعله في متناول كل من المبتدئين والمحترفين. من خلال بضعة أسطر من التعليمات البرمجية، يمكن للمستخدمين تحميل نماذج مُدرّبة مسبقًا، وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات الإعداد المعقدة.

على سبيل المثال، إليك الخطوات التي ستتبعها لاستخدام YOLO12 للكشف عن الأجسام:

  • قم بتثبيت حزمة Ultralytics : أولاً، قم بتثبيت حزمة Ultralytics Python والتي توفر الأدوات اللازمة لتشغيل YOLO12 بكفاءة. يضمن ذلك إعداد جميع التبعيات بشكل صحيح.
  • تحميل نموذج YOLO12 مُدرَّب مسبقًا: اختر متغير YOLO12 المناسب (nano أو small أو medium أو large أو extra large) بناءً على مستوى الدقة والسرعة المطلوبين لمهمتك.
  • تقديم صورة أو مقطع فيديو: أدخل ملف صورة أو مقطع فيديو تريد تحليله. يمكن لـ YOLO12 أيضًا معالجة بث الفيديو المباشر للكشف في الوقت الفعلي.
  • تشغيل عملية الاكتشاف: يفحص النموذج البيانات المرئية، ويحدد الكائنات، ويضع مربعات إحاطة حولها. يصنف كل كائن تم اكتشافه بالصنف المتوقع ودرجة الثقة.
  • ضبط إعدادات الاكتشاف: يمكنك أيضًا تعديل معلمات مثل عتبات الثقة لضبط دقة الاكتشاف والأداء.
  • حفظ أو استخدام المخرجات: يمكن حفظ الصورة أو الفيديو المعالج، الذي يحتوي الآن على كائنات مكتشفة، أو دمجه في تطبيق لمزيد من التحليل أو الأتمتة أو اتخاذ القرارات.

تجعل هذه الخطوات YOLO12 سهل الاستخدام لمجموعة متنوعة من التطبيقات، من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.

تطبيقات YOLO12 العملية

يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه للكشف عن الأجسام، وتقسيم المثيلات، وتصنيف الصور، وتقدير الوضعية، والكشف عن الأجسام الموجهة (OBB). 

__wf_reserved_inherit
الشكل 4. يدعم YOLO12 مهام مثل اكتشاف الكائنات وتجزئة المثيلات.

ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنة بالإصدارات السابقة. هذه المقايضة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:

  • التصوير الطبي: يمكن تدريب YOLO12 خصيصًا detect الأورام أو التشوهات في صور الأشعة السينية والتصوير بالرنين المغناطيسي بدقة عالية، مما يجعله أداة مفيدة للأطباء وأخصائيي الأشعة الذين يحتاجون إلى تحليل دقيق للصور من أجل التشخيص.
  • مراقبة الجودة في التصنيع: يمكن أن يساعد في تحديد عيوب المنتج أثناء عملية الإنتاج، مما يضمن وصول العناصر عالية الجودة فقط إلى السوق مع تقليل النفايات وتحسين الكفاءة.
  • التحليل الجنائي: يمكن لوكالات إنفاذ القانون إجراء تعديلات دقيقة على YOLO12 لتحليل لقطات المراقبة وجمع الأدلة. في التحقيقات الجنائية، تعتبر الدقة أمرًا حيويًا لتحديد التفاصيل الرئيسية.
  • الزراعة الدقيقة: يمكن للمزارعين استخدام YOLO12 لتحليل صحة المحاصيل detect الأمراض أو الآفات ومراقبة ظروف التربة. وتساعد التقييمات الدقيقة على تحسين استراتيجيات الزراعة، مما يؤدي إلى تحسين إدارة المحاصيل والموارد.

بدء استخدام YOLO12

قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات الضرورية.

من الناحية الفنية، يمكن تشغيل YOLO12 على أي GPU معالجة رسومات مخصصة (وحدة معالجة الرسومات). بشكل افتراضي، لا يتطلب FlashAttention، لذا يمكن أن يعمل على معظم أنظمة GPU بدونه. ومع ذلك، فإن تمكين FlashAttention يمكن أن يكون مفيدًا بشكل خاص عند العمل مع مجموعات البيانات الكبيرة أو الصور عالية الدقة، حيث يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة. 

لاستخدام FlashAttention، ستحتاج إلىGPU NVIDIA من إحدى هذه السلاسل: Turing (T4، Quadro RTX)، أو Ampere (سلسلة RTX 30، A30، A40، A100)، أو Ada Lovelace (سلسلة RTX 40)، أو Hopper (H100، H200).

مع وضع سهولة الاستخدام وإمكانية الوصول في الاعتبار، لا تدعم حزمة Ultralytics Python حتى الآن استدلال FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا للغاية من الناحية التقنية. لمعرفة المزيد حول بدء استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.

النقاط الرئيسية

مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيلات وتصنيف الصور من خلال معالجة تتمحور حول الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.

وفي الوقت نفسه، أصبحت الرؤية الحاسوبية متاحة أكثر من أي وقت مضى. إن YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python ومع تركيزه على الدقة أكثر من السرعة، فهو مناسب تمامًا للتصوير الطبي وعمليات الفحص الصناعي والروبوتات - وهي تطبيقات تكون الدقة فيها أساسية.

هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الرؤية الحاسوبية في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا واجعل مشاريع Vision AI الخاصة بك تنبض بالحياة. 🚀

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا