تعرف على الدقة والدقة والاسترجاع في التعلم الآلي. استكشف مصفوفة الارتباك ودرجة F1 وكيفية استخدام مقاييس التقييم الحيوية هذه.

تعرف على الدقة والدقة والاسترجاع في التعلم الآلي. استكشف مصفوفة الارتباك ودرجة F1 وكيفية استخدام مقاييس التقييم الحيوية هذه.
التعلم الآلي (ML) هو فرع من الذكاء الاصطناعي (AI) يركز على إنشاء أنظمة تتعلم من البيانات. وهو يلعب دورًا محوريًا في العديد من مجالات الذكاء الاصطناعي الأخرى، بما في ذلك الرؤية الحاسوبية، حيث تقوم الآلات بتفسير الصور، ومعالجة اللغة الطبيعية، حيث تفهم وتولد اللغة البشرية.
في كثير من الأحيان، تستخدم نماذج الذكاء الاصطناعي هذه تقنيات التعلُّم العميق لإجراء تنبؤات من البيانات. وعلى الرغم من أن هذه الأنظمة يمكن أن تكون فعالة للغاية، إلا أنها لا تنتج دائماً تنبؤات صحيحة. قد تكون بعض المخرجات دقيقة، بينما قد تخطئ بعض المخرجات الأخرى الهدف.
تعتبر معرفة كيفية حدوث هذه الأخطاء جزءًا أساسيًا من تقييم مدى جودة أداء النموذج. لقياس الأداء، يمكننا استخدام مقاييس تقييم النموذج.
تشمل مقاييس التقييم الشائعة الدقة (الدقة الإجمالية)، والدقة (موثوقية التنبؤات الإيجابية)، والاستدعاء (مدى جودة النموذج في تحديد الإيجابيات الفعلية). قد تبدو هذه المقاييس متشابهة في البداية، لكن كل منها يركز على جزء مختلف من سلوك النموذج.
في هذه المقالة، سنلقي نظرة فاحصة على كل مقياس من مقاييس أداء نموذج الذكاء الاصطناعي هذه. سنستكشف أيضًا كيفية ارتباطها ببعضها البعض وكيفية اختيار المقياس المناسب لحالة الاستخدام الخاصة بك. لنبدأ!
قد يبدو نموذج التعلّم الآلي وكأنه يعمل بشكل جيد في البداية. ولكن بدون مقاييس التقييم الصحيحة، من الصعب فهم مدى دقة نتائجه. تعطي هذه المقاييس هيكلية لتقييم النموذج وتساعد في الإجابة على سؤال رئيسي: هل تنبؤات النموذج مفيدة وموثوقة لمهمة معينة؟
توفر مقاييس مثل الدقة والدقة والاستدعاء لمطوري الذكاء الاصطناعي طريقة واضحة لقياس مدى جودة عمل النموذج. على سبيل المثال، عند مقارنة النماذج المختلفة، تتيح هذه المقاييس إمكانية معرفة النموذج الأفضل أداءً لمهمة معينة. فهي تساعد في تقييم الأداء وتوجيه اختيار النموذج الذي يناسب أهداف مشروع الذكاء الاصطناعي على أفضل وجه.
تجعل هذه المقاييس أيضًا مقارنات الأداء أكثر موضوعية. فبدلاً من الاعتماد على التخمين أو الملاحظات غير المكتملة، فإنها توفر رؤى قابلة للقياس حول كيفية تصرف النموذج في المواقف المختلفة. وبذلك، فإنها تسلط الضوء على جوانب الأداء الأكثر أهمية في كل سياق.
على سبيل المثال، غالبًا ما يعتمد اختيار المقياس على التطبيق. في تطبيقات الذكاء الاصطناعي للرعاية الصحية، يكون الاستدعاء مهمًا لأن الهدف هو تحديد أكبر عدد ممكن من الحالات الإيجابية، حتى لو تم وضع علامة على بعض الحالات السلبية عن طريق الخطأ. في المقابل، قد يعطي مرشح البريد الإلكتروني غير المرغوب فيه الأولوية للدقة لتجنب وضع علامات غير صحيحة على رسائل البريد الإلكتروني المشروعة كرسائل بريد إلكتروني غير مرغوب فيها.
مصفوفة الارتباك هي عبارة عن جدول من اثنين في اثنين وهو أساسي لتقييم نماذج الذكاء الاصطناعي. وهو ينظم التنبؤات في أربع فئات من خلال مقارنة النتائج الفعلية بالنتائج المتوقعة (الإجابات التي يقدمها النموذج).
توفر هذه المقارنة عرضًا تفصيليًا لأداء النموذج. وهي تشكل الأساس لمقاييس التقييم الرئيسية مثل الدقة والاستدعاء، والتي يتم حسابها مباشرةً من القيم الموجودة في المصفوفة.
تمثل صفوف الجدول الفئات الفعلية، وتمثل الأعمدة الفئات المتوقعة. تُظهر كل خلية عدد النتائج في تلك الفئة. ببساطة، يعرض ببساطة عدد التنبؤات الصحيحة وأنواع الأخطاء التي ارتكبها النموذج.
تُعد مصفوفة الارتباك مفيدة بشكل خاص عندما تكون البيانات غير متوازنة، مما يعني أن بعض الفئات تحتوي على أمثلة أكثر من غيرها. كما أنها مفيدة أيضاً عندما تحمل أنواع مختلفة من الأخطاء تكاليف مختلفة.
على سبيل المثال، في الكشف عن الاحتيال، يعد اكتشاف النشاط الاحتيالي أمرًا بالغ الأهمية، ولكن الإبلاغ عن المعاملات الحقيقية بشكل غير صحيح يمكن أن يسبب مشاكل أيضًا. توضح المصفوفة عدد مرات حدوث كل نوع من أنواع الأخطاء.
فيما يلي نظرة عامة على العناصر المختلفة في مصفوفة الارتباك:
يتم عرض مصفوفة الارتباك بتنسيق شبكي. يُظهر المحور الرأسي الفئات الفعلية، ويُظهر المحور الأفقي الفئات المتوقعة. وتظهر التنبؤات الصحيحة على طول القطر، والتي تمثل الإيجابيات الحقيقية والسلبيات الحقيقية.
تقع الأخطاء خارج القطر، مما يغطي الإيجابيات الخاطئة والسلبيات الخاطئة. هذا الهيكل يجعل من السهل تحديد نقاط القوة والضعف.
الدقة هي أحد المقاييس الأكثر استخدامًا لتقييم مدى جودة أداء نموذج التعلم الآلي. فهو يقيس عدد مرات صحة التنبؤات في جميع الفئات. بعبارة أخرى، إنه يجيب على سؤال بسيط: من بين جميع التنبؤات التي قام بها نموذج الذكاء الاصطناعي، كم عدد التنبؤات الصحيحة؟
معادلة الدقة هي عدد التنبؤات الصحيحة (والتي تتضمن كلاً من الإيجابيات الحقيقية والسلبيات الحقيقية) مقسومة على العدد الإجمالي للتنبؤات. الدقة سهلة الحساب وسهلة الفهم، مما يجعلها نقطة انطلاق شائعة في تقييم النموذج.
بشكل عام، تكون الدقة موثوقة عند التعامل مع مجموعات البيانات المتوازنة. ومع ذلك، غالبًا ما تكون الدقة مضللة في مجموعات البيانات غير المتوازنة حيث تهيمن فئة واحدة على الفئات الأخرى. قد يستمر النموذج الذي يتنبأ دائمًا بفئة الأغلبية في تحقيق درجة دقة عالية بينما يفشل في اكتشاف فئات الأقلية الأخرى.
على سبيل المثال، في مجموعة بيانات الصور التي تحتوي على عدد قليل فقط من الصور التي تحتوي على مشاة، قد يحقق النموذج الذي يتنبأ ب "عدم وجود مشاة" لكل صورة دقة عالية ولكنه يفشل تمامًا في اكتشاف المشاة الفعليين.
هذا لأن الدقة في حد ذاتها لا تُظهر أنواع الأخطاء التي يرتكبها النموذج أو عدد مرات حدوثها. لهذا السبب من المهم أيضاً النظر إلى مقاييس مثل الدقة والاستدعاء لفهم مدى جودة عمل نموذج الذكاء الاصطناعي.
الدقة هي مقياس تقييم رئيسي يقيس دقة التنبؤات الإيجابية للنموذج. وهو يجيب على السؤال: من بين جميع الحالات التي تم التنبؤ بها على أنها إيجابية، كم عدد الحالات التي كانت صحيحة؟
معادلة الدقة هي عدد الإيجابيات الصحيحة مقسومًا على مجموع الإيجابيات الصحيحة والإيجابيات الخاطئة. وهي مهمة بشكل خاص عندما يكون التنبؤ الإيجابي مكلفًا إذا تبين أنه خاطئ.
على سبيل المثال، في الكشف عن الاحتيال، قد يؤدي النموذج ذو الدقة المنخفضة إلى الإبلاغ عن العديد من المعاملات الصحيحة على أنها احتيالية، مما يخلق مشاكل غير ضرورية لكل من المستخدمين وفرق الدعم. يقلل النموذج ذو الدقة العالية من هذه المخاطر من خلال التأكد من أن المعاملات التي تم الإبلاغ عنها من المرجح أن تكون احتيالاً فعلياً.
على الرغم من أن الدقة العالية جيدة، إلا أن النماذج التي تركز عليها أكثر من اللازم يمكن أن تصبح انتقائية للغاية، وتفقد الحالات الإيجابية الفعلية. لهذا السبب غالبًا ما يتم فحص مقياس الدقة مع الاستدعاء للحفاظ على توازن الأداء.
التذكر هو مقياس يُستخدم لقياس مدى جودة النموذج في تحديد الحالات الإيجابية الفعلية. يُعرف باسم الحساسية أو المعدل الإيجابي الحقيقي، وهو يجيب على السؤال: من بين جميع الحالات الإيجابية الفعلية، كم عدد الحالات الإيجابية الفعلية التي اكتشفها النموذج بشكل صحيح؟
معادلة الاستدعاء هي عدد الإيجابيات الحقيقية مقسومة على مجموع الإيجابيات الحقيقية والسلبيات الخاطئة. تُظهر درجة الاستدعاء العالية أن النموذج يلتقط معظم الحالات الإيجابية الحقيقية في البيانات.
يعد الاستدعاء أمرًا ضروريًا في مجالات مثل الرعاية الصحية، حيث يمكن أن يؤدي الفشل في اكتشاف حالة ما إلى تأخير العلاج وتعريض المرضى للخطر. حتى لو تم الإبلاغ عن بعض الحالات السلبية بشكل خاطئ، يظل تحديد جميع الحالات الحقيقية هو الأولوية القصوى.
ومع ذلك، يمكن للنماذج التي تركز فقط على الاستدعاء أن تشير إلى الكثير من النتائج الإيجابية الخاطئة، مما يقلل من الدقة ويضر بالكفاءة الكلية للنموذج. إن الموازنة بين الاستدعاء والدقة أمر بالغ الأهمية لتحقيق أداء موثوق لنموذج الذكاء الاصطناعي.
غالبًا ما تتحرك الدقة والتذكر في اتجاهين متعاكسين. عندما يتحسن أحدهما، يمكن أن يتراجع الآخر. هذه المفاضلة هي تحدٍ شائع في مهام التعلم الآلي.
يتنبأ النموذج عالي الدقة بشيء ما على أنه إيجابي فقط عندما يكون واثقًا. يقلل هذا من الإنذارات الخاطئة ولكنه قد يفوت الإنذارات الإيجابية الحقيقية، مما يقلل من التذكر. أما النموذج الذي يحاول التقاط كل إيجابية فيزيد من التذكّر ولكنه يخاطر بالمزيد من الإنذارات الكاذبة، مما يقلل من الدقة.
تصبح هذه المفاضلة أكثر وضوحًا عند ضبط عتبة قرار النموذج. العتبة هي الحد الفاصل الذي يستخدمه النظام لتحويل النتيجة أو الاحتمال إلى إجراء أو تسمية. يؤدي خفض العتبة إلى جعل النظام يتصرف بشكل إيجابي في كثير من الأحيان، مما قد يزيد من التذكر ولكنه قد يقلل من الدقة. يؤدي رفع العتبة إلى تأثير عكسي: يتنبأ النموذج بعدد أقل من النتائج الإيجابية، وتتحسن الدقة، ولكن عادةً ما ينخفض التذكر.
لنفترض أنك تعمل على اكتشاف الرسائل غير المرغوب فيها. يجب أن يوازن النموذج بين خطر السماح بدخول الرسائل المزعجة إلى البريد الوارد وخطر حظر رسائل البريد الإلكتروني الحقيقية. قد يستمر المرشح الصارم في تفويت بعض الرسائل غير المرغوب فيها، في حين أن المرشح الأكثر تساهلاً قد يحظر عن طريق الخطأ الرسائل المشروعة. يعتمد التوازن الصحيح على حالة الاستخدام وتكلفة كل نوع من أنواع الأخطاء.
يُظهر منحنى الدقة والاستدعاء أو منحنى الدقة والاستدعاء كيف تتغير الدقة والاستدعاء مع تغير عتبة قرار النموذج. تمثل كل نقطة مفاضلة مختلفة بين الاثنين. يُعتبر منحنى الدقة والاستدعاء مفيدًا بشكل خاص لمجموعات البيانات غير المتوازنة، حيث تكون إحدى الفئات أقل تكرارًا.
كما أنه يوفر أيضًا رؤية أكثر وضوحًا من منحنى خاصية التلقي التشغيلي (ROC)، والذي يُظهر أيضًا مدى جودة النموذج في فصل النتائج الإيجابية عن السلبية عند عتبات القرار المختلفة. سيكون للنموذج الذي يتمتع بدقة عالية واستدعاء عالٍ منحنى دقة واستدعاء عالٍ على حد سواء، والذي يبقى بالقرب من الزاوية العلوية اليمنى، وهو أمر مثالي بشكل عام.
توفر درجة F1 قيمة واحدة تجسد التوازن بين الدقة والاستدعاء. يتم حساب النتيجة F1 على شكل حاصل ضرب حاصل ضرب الدقة والاستدعاء، مقسومًا على مجموع الدقة والاستدعاء. وهي مفيدة عندما تكون كل من النتائج الإيجابية الخاطئة والسلبيات الخاطئة مهمة، وتكون مفيدة عند العمل مع مجموعات بيانات غير متوازنة أو عند الحاجة إلى رؤية متوازنة لأداء النموذج.
في حين أن الدقة والدقة والاستدعاء ضرورية، إلا أن هناك مقاييس أخرى تقدم رؤى إضافية بناءً على نوع النموذج وخصائص مجموعة البيانات.
فيما يلي بعض المقاييس الشائعة الاستخدام التي تساعد في تقييم جوانب الأداء المختلفة:
والآن بعد أن أصبح لدينا فهم أوضح للدقة والدقة والاسترجاع، دعونا نستعرض كيفية تطبيق هذه المقاييس في الرؤية الحاسوبية.
تدعم نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 مهام مثل اكتشاف الأجسام، حيث يحدد النموذج الأجسام الموجودة في الصورة ويحدد موقعها باستخدام المربعات المحدودة. يتضمن كل تنبؤ كلاً من تسمية الكائن وموقعه، مما يجعل التقييم أكثر تعقيدًا من مجرد التحقق مما إذا كانت التسمية صحيحة أم لا.
ضع في اعتبارك تطبيقًا للبيع بالتجزئة حيث يتم استخدام الكاميرات لتتبع المنتجات على الرفوف تلقائيًا. قد يحدد نموذج اكتشاف الكائنات عناصر مثل علب الحبوب أو علب الصودا أو زجاجات المياه ويحدد مواقعها.
في هذه الحالة، تخبرنا الدقة بعدد العناصر المكتشفة الصحيحة بالفعل. تعني الدقة العالية أن النظام يتجنب النتائج الإيجابية الخاطئة، مثل تصنيف الظل أو كائن في الخلفية على أنه منتج. يوضح الاستدعاء عدد المنتجات الحقيقية على الرف التي تمكن النموذج من اكتشافها. يعني الاستدعاء العالي أن عدد العناصر المفقودة أقل، وهو أمر بالغ الأهمية لجرد المخزون بدقة.
لا يزال بإمكان الدقة توفير مقياس عام للصحة، ولكن في هذا النوع من البيئات، يمكن أن يكون لفقدان بعض المنتجات أو اكتشاف عناصر غير موجودة تأثير كبير على إدارة المخزون. لهذا السبب ينظر المطورون إلى الدقة والاستدعاء والدقة معًا لضمان أن يكون النظام موثوقًا وعمليًا للاستخدام في العالم الحقيقي.
تعرض كل من الدقة والدقة والاسترجاع جوانب مختلفة من أداء نموذج التعلم الآلي. قد يكون الاعتماد على مقياس واحد فقط مضللاً.
تساعد الأدوات والمقاييس مثل مصفوفة الارتباك، ومنحنيات دقة الاسترجاع، ودرجة F1 في الكشف عن المفاضلات وتوجيه القرارات بشأن إجراء تحسينات على نموذج تعلّم الآلة. من خلال اختيار التركيبة الصحيحة من المقاييس لحل ذكاء اصطناعي معين، يمكنك ضمان دقة النماذج وموثوقيتها وفعاليتها في تطبيقات العالم الحقيقي.
استكشف مجتمعنا المتنامي! اطلع على مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع الرؤية الحاسوبية الخاصة بك؟ ألقِ نظرة على خيارات الترخيص لدينا. اكتشف الذكاء الاصطناعي في الزراعة والذكاء الاصطناعي للرؤية في مجال الروبوتات من خلال زيارة صفحات الحلول الخاصة بنا!