اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات
اكتشف YOLO12، أحدث نموذج لرؤية الكمبيوتر! تعرف على كيفية قيام بنيته التي تركز على الانتباه وتقنية FlashAttention بتحسين مهام الكشف عن الكائنات عبر الصناعات
رؤية الحاسوب هي فرع من فروع الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. إنه مجال يتقدم بوتيرة مذهلة لأن باحثي الذكاء الاصطناعي والمطورين يدفعون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائمًا إلى جعل النماذج أسرع وأكثر ذكاءً وكفاءة. أحد أحدث الاختراقات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.
تم تطوير YOLO12 بواسطة باحثين من جامعة بافالو، جامعة ولاية نيويورك (SUNY)، وجامعة الأكاديمية الصينية للعلوم. في نهج جديد فريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأساسية من الصورة بدلاً من معالجة كل شيء بالتساوي.
كما أنها تتميز بتقنية FlashAttention، وهي تقنية تسرع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه للمنطقة، مصممة لتقليد الطريقة التي يركز بها البشر بشكل طبيعي على الكائنات المركزية.
تجعل هذه التحسينات YOLO12n أكثر دقة بنسبة 2.1٪ من YOLOv10n و YOLO12m أكثر دقة بنسبة + 1.0٪ من YOLO11m. ومع ذلك، يأتي هذا مع مقايضة - YOLO12n أبطأ بنسبة 9٪ من YOLOv10n، و YOLO12m أبطأ بنسبة 3٪ من YOLO11m.

في هذه المقالة، سوف نستكشف ما الذي يميز YOLO12، وكيف تتم مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.
تعتبر سلسلة نماذج YOLO مجموعة من نماذج رؤية الكمبيوتر المصممة للكشف عن الكائنات في الوقت الفعلي، مما يعني أنها يمكنها تحديد وتحديد مواقع الكائنات في الصور ومقاطع الفيديو بسرعة. بمرور الوقت، تحسن كل إصدار من حيث السرعة والدقة والكفاءة.
على سبيل المثال، أصبح Ultralytics YOLOv5، الذي تم إصداره في عام 2020، مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التدريب والتوزيع المخصص. في وقت لاحق، قام Ultralytics YOLOv8 بتحسين ذلك من خلال تقديم دعم إضافي لمهام رؤية الكمبيوتر مثل تجزئة المثيل وتتبع الكائنات.
ركزت Ultralytics YOLO11 مؤخرًا على تحسين المعالجة في الوقت الفعلي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، كان لدى YOLO11m معلمات أقل بنسبة 22% من YOLOv8m، ولكنها لا تزال تقدم أداءً أفضل في الكشف على مجموعة بيانات COCO، وهي معيار مستخدم على نطاق واسع لتقييم نماذج الكشف عن الكائنات.
بالاعتماد على هذه التطورات، يقدم YOLO12 تحولًا في كيفية معالجة المعلومات المرئية. فبدلاً من معاملة جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة مع السعي إلى أن يكون أكثر دقة.
يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الفعلي. فيما يلي نظرة عامة على الميزات الرئيسية في YOLO12:
لفهم كيفية عمل هذه الميزات في الحياة الواقعية، ضع في اعتبارك مركزًا للتسوق. يمكن أن يساعد YOLO12 في تتبع المتسوقين وتحديد ديكورات المتجر مثل النباتات المحفوظة في أصص أو اللافتات الترويجية واكتشاف العناصر في غير مكانها أو المهجورة.
تساعده بنيته التي تركز على الانتباه على التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون زيادة التحميل على النظام. هذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تصميمات المتاجر وتعزيز تجربة التسوق الشاملة.

مع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:
يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية احتياجات مختلفة. تعطي الإصدارات الأصغر (nano و small) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة الطرفية. تحقق الإصدارات المتوسطة والكبيرة توازنًا بين السرعة و الدقة، بينما تم تصميم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.
مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر اختبارات الأداء أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، وتحقق متوسط دقة أعلى (mAP).
مع ذلك، تعالج بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، الصور بشكل أبطأ من YOLO11، مما يوضح وجود مفاضلة بين دقة الاكتشاف والسرعة. على الرغم من ذلك، يظل YOLO12 فعالاً، ويتطلب عددًا أقل من المعلمات مقارنة بالعديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الخام.

يدعم حزمة Ultralytics Python برنامج YOLO12 وهو سهل الاستخدام، مما يجعله في متناول المبتدئين والمحترفين على حد سواء. ببضعة أسطر فقط من التعليمات البرمجية، يمكن للمستخدمين تحميل النماذج المدربة مسبقًا وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات إعداد معقدة.
على سبيل المثال، إليك الخطوات التي ستتبعها لاستخدام YOLO12 للكشف عن الأجسام:
تجعل هذه الخطوات YOLO12 سهل الاستخدام لمجموعة متنوعة من التطبيقات، من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.
يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه للكشف عن الأجسام، وتقسيم المثيلات، وتصنيف الصور، وتقدير الوضعية، والكشف عن الأجسام الموجهة (OBB).

ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنة بالإصدارات السابقة. هذه المقايضة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:
قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات الضرورية.
من الناحية الفنية، يمكن لـ YOLO12 أن يعمل على أي وحدة معالجة رسومات مخصصة (GPU). بشكل افتراضي، لا يتطلب FlashAttention، لذلك يمكن أن يعمل على معظم أنظمة وحدات معالجة الرسومات بدونها. ومع ذلك، يمكن أن يكون تمكين FlashAttention مفيدًا بشكل خاص عند العمل مع مجموعات بيانات كبيرة أو صور عالية الدقة، لأنه يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة.
لاستخدام FlashAttention، ستحتاج إلى وحدة معالجة رسومات NVIDIA من إحدى هذه السلاسل: Turing (T4, Quadro RTX)، Ampere (RTX 30 series, A30, A40, A100)، Ada Lovelace (RTX 40 series)، أو Hopper (H100, H200).
مع الأخذ في الاعتبار سهولة الاستخدام وإمكانية الوصول، لا تدعم حزمة Ultralytics Python حتى الآن استنتاج FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا تقنيًا للغاية. لمعرفة المزيد حول كيفية البدء في استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.
مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الكائنات وتجزئة المثيلات وتصنيف الصور من خلال معالجة تتمحور حول الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.
في الوقت نفسه، أصبح مجال رؤية الحاسوب أكثر سهولة من أي وقت مضى. YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python، ومع تركيزه على الدقة بدلًا من السرعة، فهو مناسب تمامًا للتصوير الطبي والفحوصات الصناعية والروبوتات - وهي التطبيقات التي يكون فيها الدقة أمرًا أساسيًا.
هل أنت مهتم بالذكاء الاصطناعي؟ قم بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الرؤية الحاسوبية في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا واجعل مشاريع Vision AI الخاصة بك تنبض بالحياة. 🚀