تعرّف على الدقة والاسترجاع والضبط في مجال تعلم الآلة. استكشف مصفوفة الالتباس، ومقياس F1، وكيفية استخدام هذه المقاييس الحيوية لتقييم الأداء.

تعرّف على الدقة والاسترجاع والضبط في مجال تعلم الآلة. استكشف مصفوفة الالتباس، ومقياس F1، وكيفية استخدام هذه المقاييس الحيوية لتقييم الأداء.
التعلم الآلي (ML) هو فرع من فروع الذكاء الاصطناعي (AI) الذي يركز على إنشاء أنظمة تتعلم من البيانات. يلعب دورًا مركزيًا في العديد من المجالات الأخرى للذكاء الاصطناعي، بما في ذلك رؤية الكمبيوتر، حيث تفسر الآلات الصور، ومعالجة اللغة الطبيعية، حيث تفهم وتولد اللغة البشرية.
غالبًا ما تستخدم نماذج الذكاء الاصطناعي هذه تقنيات التعلم العميق لتقديم تنبؤات من البيانات. في حين أن هذه الأنظمة يمكن أن تكون فعالة للغاية، إلا أنها لا تنتج دائمًا تنبؤات صحيحة. قد تكون بعض المخرجات دقيقة، بينما يخطئ البعض الآخر الهدف.
إن معرفة كيفية حدوث هذه الأخطاء جزء أساسي من تقييم مدى جودة أداء النموذج. لقياس الأداء، يمكننا استخدام مقاييس تقييم النموذج.
تشمل مقاييس التقييم الشائعة الدقة (الصحة الإجمالية)، والإحكام (موثوقية التنبؤات الإيجابية)، والاسترجاع (مدى جودة تحديد النموذج للإيجابيات الفعلية). قد تبدو متشابهة في البداية، لكن كل واحدة تركز على جزء مختلف من سلوك النموذج.
في هذه المقالة، سوف نلقي نظرة فاحصة على كل مقياس من مقاييس أداء نموذج الذكاء الاصطناعي هذه. وسوف نستكشف أيضًا كيف ترتبط ببعضها البعض وكيفية اختيار المقياس المناسب لحالة الاستخدام الخاصة بك. هيا بنا نبدأ!
قد يبدو نموذج التعلم الآلي وكأنه يعمل بشكل جيد في البداية. ولكن بدون مقاييس التقييم الصحيحة، من الصعب فهم مدى دقة نتائجه. تعطي هذه المقاييس هيكلًا لتقييم النموذج وتساعد في الإجابة عن سؤال رئيسي: هل تنبؤات النموذج مفيدة وموثوقة لمهمة معينة؟
تمنح المقاييس مثل الدقة والاسترجاع والملاءمة مطوري الذكاء الاصطناعي طريقة واضحة لقياس مدى جودة عمل النموذج. على سبيل المثال، عند مقارنة نماذج مختلفة، تجعل هذه المقاييس من الممكن معرفة أي منها يعمل بشكل أفضل لمهمة معينة. فهي تساعد في تقييم الأداء وتوجيه اختيار النموذج الذي يناسب أهداف مشروع الذكاء الاصطناعي على أفضل وجه.
تجعل هذه المقاييس أيضًا مقارنات الأداء أكثر موضوعية. بدلاً من الاعتماد على التخمين أو الملاحظات غير الكاملة، فإنها توفر رؤى قابلة للقياس حول كيفية تصرف النموذج في المواقف المختلفة. من خلال القيام بذلك، فإنها تسلط الضوء على جوانب الأداء الأكثر أهمية في كل سياق.
على سبيل المثال، غالبًا ما يعتمد اختيار المقياس على التطبيق. في تطبيقات الذكاء الاصطناعي في مجال الرعاية الصحية، يكون الاسترجاع مهمًا لأن الهدف هو تحديد أكبر عدد ممكن من الحالات الإيجابية، حتى لو تم وضع علامة على بعض الحالات السلبية عن طريق الخطأ. في المقابل، قد يعطي عامل تصفية البريد العشوائي الأولوية للدقة لتجنب وضع علامة غير صحيحة على رسائل البريد الإلكتروني المشروعة كرسائل غير مرغوب فيها.
مصفوفة الالتباس هي جدول ثنائي الأبعاد أساسي لتقييم نماذج الذكاء الاصطناعي. فهو ينظم التنبؤات إلى أربع فئات من خلال مقارنة النتائج الفعلية بالنتائج المتوقعة (الإجابات التي يقدمها النموذج).
توفر هذه المقارنة عرضًا تفصيليًا لأداء النموذج. وهو يشكل الأساس لمقاييس التقييم الرئيسية مثل الدقة والاسترجاع، والتي يتم حسابها مباشرة من القيم الموجودة في المصفوفة.
تمثل صفوف الجدول الفئات الفعلية، وتمثل الأعمدة الفئات المتوقعة. تعرض كل خلية عدد النتائج في تلك الفئة. ببساطة، فإنه يعرض عدد التنبؤات الصحيحة وأنواع الأخطاء التي ارتكبها النموذج.
تكون مصفوفة الارتباك مفيدة بشكل خاص عندما تكون البيانات غير متوازنة، مما يعني أن بعض الفئات لديها أمثلة أكثر بكثير من غيرها. كما أنها مفيدة عندما تحمل الأنواع المختلفة من الأخطاء تكاليف مختلفة.
على سبيل المثال، في اكتشاف الاحتيال، يعد اكتشاف النشاط الاحتيالي أمرًا بالغ الأهمية، ولكن الإبلاغ عن المعاملات الحقيقية بشكل غير صحيح يمكن أن يسبب مشاكل أيضًا. توضح المصفوفة عدد مرات حدوث كل نوع من الأخطاء.
إليك نظرة عامة على العناصر المختلفة في مصفوفة الارتباك:
يتم عرض مصفوفة الارتباك بتنسيق شبكة. يعرض المحور الرأسي الفئات الفعلية، ويعرض المحور الأفقي الفئات المتوقعة. تظهر التنبؤات الصحيحة على طول القطر، مما يمثل الإيجابيات الحقيقية والسلبيات الحقيقية.
تقع الأخطاء خارج القطر، وتغطي الإيجابيات الكاذبة والسلبيات الكاذبة. هذا الهيكل يجعل من السهل تحديد نقاط القوة والضعف.
الدقة هي أحد المقاييس الأكثر استخدامًا لتقييم أداء نموذج تعلم الآلة. وهي تقيس عدد مرات صحة التنبؤات عبر جميع الفئات. بعبارة أخرى، تجيب على سؤال بسيط: من بين جميع التنبؤات التي قدمها نموذج الذكاء الاصطناعي، كم عدد التنبؤات الصحيحة؟
صيغة الدقة هي عدد التوقعات الصحيحة (التي تتضمن كلًا من الإيجابيات الحقيقية والسلبيات الحقيقية) مقسومًا على إجمالي عدد التوقعات. الدقة واضحة ومباشرة للحساب وسهلة الفهم، مما يجعلها نقطة انطلاق شائعة في تقييم النموذج.
بشكل عام، تكون الدقة موثوقة عند التعامل مع مجموعات البيانات المتوازنة. ومع ذلك، غالبًا ما تكون الدقة مضللة في مجموعات البيانات غير المتوازنة حيث تهيمن فئة واحدة على الفئات الأخرى. قد يحقق النموذج الذي يتنبأ دائمًا بالفئة الأغلبية درجة دقة عالية مع الفشل في الكشف عن الفئات الأقلية الأخرى.
على سبيل المثال، في مجموعة بيانات صور حيث تحتوي عدد قليل فقط من الصور على مشاة، قد يحقق النموذج الذي يتوقع "لا يوجد مشاة" لكل صورة دقة عالية ولكنه يفشل تمامًا في اكتشاف المشاة الفعليين.
هذا لأن الدقة وحدها لا تظهر أنواع الأخطاء التي يرتكبها النموذج أو عدد مرات حدوثها. لهذا السبب من المهم أيضًا إلقاء نظرة على مقاييس مثل الدقة والاسترجاع لفهم مدى جودة عمل نموذج الذكاء الاصطناعي بشكل كامل.
الدقة هي مقياس تقييم رئيسي يقيس دقة التنبؤات الإيجابية للنموذج. يجيب على السؤال: من بين جميع الحالات التي تم التنبؤ بها على أنها إيجابية، كم عدد الحالات الصحيحة؟
صيغة الدقة هي عدد الإيجابيات الحقيقية مقسومًا على مجموع الإيجابيات الحقيقية والإيجابيات الكاذبة. وهي ذات أهمية خاصة عندما يكون التوقع الإيجابي مكلفًا إذا تبين أنه خاطئ.
على سبيل المثال، في اكتشاف الاحتيال، قد يقوم نموذج ذو دقة منخفضة بالإبلاغ عن العديد من المعاملات الصحيحة على أنها احتيالية، مما يخلق مشكلات غير ضرورية لكل من المستخدمين وفرق الدعم. يقلل النموذج ذو الدقة العالية من هذا الخطر من خلال التأكد من أن المعاملات التي تم الإبلاغ عنها من المرجح أن تكون احتيالًا فعليًا.
في حين أن الدقة العالية جيدة، إلا أن النماذج التي تركز بشكل كبير عليها يمكن أن تصبح انتقائية للغاية، وتفوت الحالات الإيجابية الفعلية. لهذا السبب غالبًا ما يتم فحص مقياس الدقة جنبًا إلى جنب مع الاسترجاع للحفاظ على توازن الأداء.
الاسترجاع (Recall) هو مقياس يستخدم لتقييم مدى جودة النموذج في تحديد الحالات الإيجابية الفعلية. يُعرف أيضًا بالحساسية أو معدل الإيجابيات الحقيقية، ويجيب على السؤال التالي: من بين جميع الحالات الإيجابية الفعلية، كم عدد الحالات التي اكتشفها النموذج بشكل صحيح؟
صيغة الاسترجاع هي عدد الإيجابيات الحقيقية مقسومًا على مجموع الإيجابيات الحقيقية والسلبيات الكاذبة. تُظهر درجة الاسترجاع العالية أن النموذج يلتقط معظم الحالات الإيجابية الحقيقية في البيانات.
يُعد الاسترجاع ضروريًا في صناعات مثل الرعاية الصحية، حيث يمكن أن يؤدي عدم اكتشاف حالة ما إلى تأخير العلاج وتعريض المرضى للخطر. حتى إذا تم الإبلاغ عن بعض الحالات السلبية بشكل غير صحيح، فإن تحديد جميع الحالات الحقيقية يظل الأولوية القصوى.
ومع ذلك، فإن النماذج التي تركز فقط على الاسترجاع يمكن أن تضع علامة على الكثير من الإيجابيات الكاذبة، مما يقلل من الدقة ويضر بالكفاءة الكلية للنموذج. إن موازنة الاسترجاع والدقة أمر بالغ الأهمية لأداء نموذج الذكاء الاصطناعي الموثوق به.
غالبًا ما تتحرك الدقة والاسترجاع في اتجاهين متعاكسين. عندما يتحسن أحدهما، يمكن أن ينخفض الآخر. هذا التوازن هو تحد شائع في مهام تعلم الآلة.
يتوقع النموذج عالي الدقة شيئًا ما على أنه إيجابي فقط عندما يكون واثقًا. هذا يقلل من الإنذارات الكاذبة ولكنه قد يفوت الإيجابيات الحقيقية، مما يقلل من الاسترجاع. النموذج الذي يحاول التقاط كل إيجابي يرفع الاسترجاع ولكنه يخاطر بمزيد من الإنذارات الكاذبة، مما يقلل من الدقة.
يصبح هذا التوازن أكثر وضوحًا عند تعديل عتبة قرار النموذج. العتبة هي الحد الذي يستخدمه النظام لتحويل النتيجة أو الاحتمالية إلى إجراء أو تسمية. يؤدي خفض العتبة إلى جعل النظام يتصرف بشكل إيجابي في كثير من الأحيان، مما قد يزيد من الاسترجاع ولكنه قد يقلل من الدقة. رفع العتبة له تأثير معاكس: يتوقع النموذج عددًا أقل من الإيجابيات، وتتحسن الدقة، ولكن عادةً ما ينخفض الاسترجاع.
لنفترض أنك تعمل على اكتشاف الرسائل غير المرغوب فيها. يجب أن يوازن النموذج بين خطر السماح بدخول الرسائل غير المرغوب فيها إلى صندوق الوارد وخطر حظر رسائل البريد الإلكتروني الحقيقية. قد لا يزال المرشح الصارم يفوت بعض الرسائل غير المرغوب فيها، في حين أن المرشح الأكثر تساهلاً قد يحظر الرسائل المشروعة عن طريق الخطأ. يعتمد التوازن الصحيح على حالة الاستخدام وتكلفة كل نوع من الأخطاء.
يوضح منحنى الدقة والاسترجاع أو منحنى PR كيف تتغير الدقة والاسترجاع مع تغير عتبة قرار النموذج. تمثل كل نقطة مفاضلة مختلفة بين الاثنين. يعد منحنى PR مفيدًا بشكل خاص لمجموعات البيانات غير المتوازنة، حيث تكون إحدى الفئات أقل تكرارًا.
كما أنه يوفر رؤى أكثر فائدة من منحنى خاصية تشغيل المستقبل (ROC)، والذي يوضح أيضًا مدى جودة فصل النموذج بين الإيجابيات والسلبيات عند عتبات قرار مختلفة. سيكون للنموذج الذي يتمتع بدقة واسترجاع عالٍ منحنى دقة واسترجاع يبقى بالقرب من الزاوية العلوية اليمنى، وهو أمر مثالي بشكل عام.
مقياس F1 يوفر قيمة واحدة تلتقط التوازن بين الدقة والاسترجاع. يتم حساب مقياس F1 بضرب الدقة والاسترجاع في اثنين، ثم قسمة الناتج على مجموع الدقة والاسترجاع. إنه مفيد عندما تكون كل من الإيجابيات الكاذبة والسلبيات الكاذبة مهمة، وهو مفيد عند العمل مع مجموعات بيانات غير متوازنة أو عند الحاجة إلى عرض متوازن لأداء النموذج.
في حين أن الدقة والاسترجاع والضبط أمور ضرورية، إلا أن المقاييس الأخرى تقدم رؤى إضافية بناءً على نوع النموذج وخصائص مجموعة البيانات.
فيما يلي بعض المقاييس شائعة الاستخدام التي تساعد في تقييم الجوانب المختلفة للأداء:
الآن بعد أن أصبح لدينا فهم أوضح للدقة والضبط والاسترجاع، دعونا نشرح كيفية تطبيق هذه المقاييس في مجال رؤية الحاسوب.
تدعم نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 مهامًا مثل اكتشاف الكائنات، حيث يحدد النموذج الكائنات الموجودة في الصورة ويحدد مواقعها باستخدام مربعات محيطة. يتضمن كل تنبؤ كلاً من تسمية الكائن وموقعه، مما يجعل التقييم أكثر تعقيدًا من مجرد التحقق مما إذا كانت التسمية صحيحة.
ضع في اعتبارك تطبيق بيع بالتجزئة حيث يتم استخدام الكاميرات لتتبع المنتجات تلقائيًا على الرفوف. قد يحدد نموذج الكشف عن الكائنات عناصر مثل علب الحبوب أو علب الصودا أو زجاجات المياه ويحدد مواقعها.
في هذه الحالة، تخبرنا الدقة عن عدد العناصر المكتشفة الصحيحة بالفعل. تعني الدقة العالية أن النظام يتجنب الإيجابيات الكاذبة، مثل تصنيف الظل أو كائن الخلفية كمنتج. يوضح الاسترجاع عدد المنتجات الحقيقية على الرف التي تمكن النموذج من اكتشافها. يعني الاسترجاع العالي عدد أقل من العناصر المفقودة، وهو أمر بالغ الأهمية لإحصاءات المخزون الدقيقة.
لا تزال الدقة توفر مقياسًا عامًا للصحة، ولكن في هذا النوع من الإعداد، يمكن أن يكون لفقدان عدد قليل من المنتجات أو اكتشاف العناصر غير الموجودة تأثير كبير على إدارة المخزون. لهذا السبب ينظر المطورون إلى الدقة والاسترجاع معًا لضمان أن النظام موثوق وعملي للاستخدام في العالم الحقيقي.
تعرض الدقة والاسترجاع والضبط جوانب مختلفة من أداء نموذج التعلم الآلي. الاعتماد على مقياس واحد فقط يمكن أن يكون مضللاً.
تساعد الأدوات والمقاييس مثل مصفوفة الالتباس ومنحنيات الدقة والاسترجاع ودرجة F1 في الكشف عن المفاضلات وتوجيه القرارات بشأن إجراء تحسينات على نموذج التعلم الآلي. من خلال اختيار المجموعة الصحيحة من المقاييس لحل معين للذكاء الاصطناعي، يمكنك التأكد من أن النماذج دقيقة وموثوقة وفعالة في التطبيقات الواقعية.
استكشف مجتمعنا المتنامي! تحقق من مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع رؤية الكمبيوتر الخاصة بك؟ ألق نظرة على خيارات الترخيص الخاصة بنا. اكتشف الذكاء الاصطناعي في الزراعة و Vision AI في الروبوتات من خلال زيارة صفحات الحلول الخاصة بنا!