اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات
اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات
الرؤية الحاسوبية هي فرع من الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. وهو مجال يتطور بوتيرة مذهلة لأن باحثي ومطوري الذكاء الاصطناعي يتخطون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائماً إلى جعل النماذج أسرع وأذكى وأكثر كفاءة. أحد أحدث الإنجازات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.
تم تطوير YOLO12 بواسطة باحثين من جامعة بافالو، جامعة ولاية نيويورك (SUNY)، وجامعة الأكاديمية الصينية للعلوم. في نهج جديد فريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأساسية من الصورة بدلاً من معالجة كل شيء بالتساوي.
كما أنها تتميز بتقنية FlashAttention، وهي تقنية تسرع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه للمنطقة، مصممة لتقليد الطريقة التي يركز بها البشر بشكل طبيعي على الكائنات المركزية.
تجعل هذه التحسينات YOLO12n أكثر دقة بنسبة 2.1٪ من YOLOv10n و YOLO12m أكثر دقة بنسبة + 1.0٪ من YOLO11m. ومع ذلك، يأتي هذا مع مقايضة - YOLO12n أبطأ بنسبة 9٪ من YOLOv10n، و YOLO12m أبطأ بنسبة 3٪ من YOLO11m.

في هذه المقالة، سوف نستكشف ما الذي يميز YOLO12، وكيف تتم مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.
سلسلة نماذجYOLO عبارة عن مجموعة من نماذج الرؤية الحاسوبية المصممة للكشف عن الأجسام في الوقت الحقيقي، مما يعني أنها تستطيع تحديد الأجسام في الصور ومقاطع الفيديو وتحديد موقعها بسرعة. بمرور الوقت، تحسّن كل إصدار من حيث السرعة والدقة والكفاءة.
على سبيل المثال Ultralytics YOLOv5الذي تم إصداره في عام 2020، وأصبح مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التخصيص والنشر. لاحقًا Ultralytics YOLOv8 تحسين هذا الأمر من خلال تقديم دعم إضافي لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتتبع الكائنات.
في الآونة الأخيرة Ultralytics YOLO11 على تحسين المعالجة في الوقت الحقيقي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، احتوى YOLO11m على معلمات أقل بنسبة 22% من YOLOv8m ومع ذلك حقق أداءً أفضل في الكشف على مجموعة بيانات COCO وهو معيار يستخدم على نطاق واسع لتقييم نماذج الكشف عن الأجسام.
بالاعتماد على هذه التطورات، يقدم YOLO12 تحولًا في كيفية معالجة المعلومات المرئية. فبدلاً من معاملة جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة مع السعي إلى أن يكون أكثر دقة.
يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الفعلي. فيما يلي نظرة عامة على الميزات الرئيسية في YOLO12:
لفهم كيفية عمل هذه الميزات في الحياة الواقعية، فكر في مركز تسوق. يمكن أن يساعدك YOLO12 في track المتسوقين، وتحديد ديكورات المتاجر مثل أصص النباتات أو اللافتات الترويجية، واكتشاف العناصر التي تم وضعها في غير مكانها أو المتروكة.
تساعده بنيته التي تركز على الانتباه على التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون زيادة التحميل على النظام. هذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تصميمات المتاجر وتعزيز تجربة التسوق الشاملة.

مع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:
يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية احتياجات مختلفة. تعطي الإصدارات الأصغر (nano و small) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة الطرفية. تحقق الإصدارات المتوسطة والكبيرة توازنًا بين السرعة و الدقة، بينما تم تصميم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.
مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر الاختبارات المعيارية أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، حيث تحقق متوسط دقة أعلى في المتوسطmAP).
ومع ذلك، فإن بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، تعالج الصور بشكل أبطأ من YOLO11 مما يُظهر مفاضلة بين دقة الكشف والسرعة. على الرغم من ذلك، يظل YOLO12 فعّالاً، حيث يتطلب معلمات أقل من العديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الأولية.

برنامج YOLO12 مدعوم من حزمةUltralytics Python وهو سهل الاستخدام، مما يجعله في متناول كل من المبتدئين والمحترفين. من خلال بضعة أسطر من التعليمات البرمجية، يمكن للمستخدمين تحميل نماذج مُدرّبة مسبقًا، وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات الإعداد المعقدة.
على سبيل المثال، إليك الخطوات التي ستتبعها لاستخدام YOLO12 للكشف عن الأجسام:
تجعل هذه الخطوات YOLO12 سهل الاستخدام لمجموعة متنوعة من التطبيقات، من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.
يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه للكشف عن الأجسام، وتقسيم المثيلات، وتصنيف الصور، وتقدير الوضعية، والكشف عن الأجسام الموجهة (OBB).

ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنة بالإصدارات السابقة. هذه المقايضة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:
قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات الضرورية.
من الناحية الفنية، يمكن تشغيل YOLO12 على أي GPU معالجة رسومات مخصصة (وحدة معالجة الرسومات). بشكل افتراضي، لا يتطلب FlashAttention، لذا يمكن أن يعمل على معظم أنظمة GPU بدونه. ومع ذلك، فإن تمكين FlashAttention يمكن أن يكون مفيدًا بشكل خاص عند العمل مع مجموعات البيانات الكبيرة أو الصور عالية الدقة، حيث يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة.
لاستخدام FlashAttention، ستحتاج إلىGPU NVIDIA من إحدى هذه السلاسل: Turing (T4، Quadro RTX)، أو Ampere (سلسلة RTX 30، A30، A40، A100)، أو Ada Lovelace (سلسلة RTX 40)، أو Hopper (H100، H200).
مع وضع سهولة الاستخدام وإمكانية الوصول في الاعتبار، لا تدعم حزمة Ultralytics Python حتى الآن استدلال FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا للغاية من الناحية التقنية. لمعرفة المزيد حول بدء استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.
مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيلات وتصنيف الصور من خلال معالجة تتمحور حول الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.
وفي الوقت نفسه، أصبحت الرؤية الحاسوبية متاحة أكثر من أي وقت مضى. إن YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python ومع تركيزه على الدقة أكثر من السرعة، فهو مناسب تمامًا للتصوير الطبي وعمليات الفحص الصناعي والروبوتات - وهي تطبيقات تكون الدقة فيها أساسية.
هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الرؤية الحاسوبية في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا واجعل مشاريع Vision AI الخاصة بك تنبض بالحياة. 🚀