مسرد المصطلحات

بايز ساذج

اكتشف بساطة وقوة مصنفات باييز الساذجة لتصنيف النصوص، والبرمجة اللغوية العصبية اللغوية، واكتشاف الرسائل غير المرغوب فيها، وتحليل المشاعر في الذكاء الاصطناعي وتعلم الآلة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يشير مصطلح "بايز الساذج" إلى عائلة من المصنفات الاحتمالية البسيطة القائمة على تطبيق نظرية بايز مع افتراضات استقلالية قوية (ساذجة) بين السمات. وهي خوارزمية تعلم تحت الإشراف شائعة تستخدم بشكل أساسي في مهام التصنيف في التعلم الآلي (ML). على الرغم من بساطتها وافتراض الاستقلالية غير الواقعي في كثير من الأحيان، إلا أن أداء بايز الساذج غالبًا ما يكون جيدًا، خاصةً في مجالات مثل معالجة اللغات الطبيعية (NLP)، ويعمل كنموذج أساسي مفيد. كما أن كفاءته تجعله مناسبًا لسيناريوهات البيانات الضخمة والتنبؤات في الوقت الفعلي حيث تكون السرعة أمرًا بالغ الأهمية.

نظرية بايز والافتراض الساذج

ترتكز الخوارزمية على نظرية بايز، التي تصف احتمال وقوع حدث ما بناءً على المعرفة المسبقة بالظروف المتعلقة بالحدث. في التصنيف، تحسب الخوارزمية احتمال انتماء نقطة بيانات إلى فئة معينة بالنظر إلى سماتها. يأتي الجزء "الساذج" من الافتراض الأساسي بأن جميع الميزات المستخدمة للتصنيف مستقلة عن بعضها البعض، بالنظر إلى الفئة. على سبيل المثال، في تصنيف النصوص، يفترض أن وجود كلمة واحدة لا علاقة له بوجود كلمة أخرى في نفس المستند، بالنظر إلى فئة المستند. على الرغم من أن هذا الافتراض نادرًا ما يكون صحيحًا في الواقع (غالبًا ما تكون الكلمات في المستند مترابطة)، إلا أنه يبسّط العملية الحسابية بشكل كبير، مما يجعل الخوارزمية سريعة وفعّالة، خاصةً مع مجموعات البيانات عالية الأبعاد.

كيف يعمل نظام بايز الساذج

يتضمّن تدريب مصنف باييف بايز الساذج حساب الاحتمال المسبق لكل فئة (عدد مرات ظهور كل فئة في بيانات التدريب) واحتمال حدوث كل سمة بالنظر إلى كل فئة. بالنسبة لنقطة بيانات جديدة غير مرئية، تستخدم الخوارزمية هذه الاحتمالات المحسوبة مسبقًا وافتراض الاستقلالية لحساب الاحتمال الخلفي لكل فئة. يتم تعيين الفئة ذات الاحتمال الخلفي الأعلى كتنبؤ. توجد متغيرات مختلفة، مثل بايز الساذج الغوسي (للسمات المستمرة بافتراض التوزيع الطبيعي)، وبايز الساذج متعدد الحدود (شائع لتصنيف النصوص باستخدام تعداد الكلمات)، وبايز الساذج البرنولي (للسمات الثنائية التي تشير إلى الوجود أو الغياب). غالبًا ما تكون المعالجة المسبقة المناسبة للبيانات مطلوبة قبل تطبيق الخوارزمية.

التطبيقات الواقعية

تُستخدم مصنفات بايز الساذجة على نطاق واسع نظرًا لكفاءتها وأدائها اللائق:

  1. تصفية الرسائل غير المرغوب فيها: هذا تطبيق كلاسيكي حيث يتم تصنيف رسائل البريد الإلكتروني على أنها "بريد مزعج" أو "غير مزعج". تقوم الخوارزمية بتحليل تواتر كلمات معينة (ميزات) في رسالة بريد إلكتروني وتحسب احتمالية أن تكون رسالة بريد إلكتروني غير مرغوب فيها بناءً على التكرار التاريخي لتلك الكلمات في رسائل البريد الإلكتروني المعروفة بأنها رسائل بريد إلكتروني غير مرغوب فيها وغير مرغوب فيها. أثبتت الأبحاث المبكرة فعاليتها في هذا المجال.
  2. تصنيف النصوص وتحليل المشاعر: تُعدّ طريقة "باييف باي" الساذجة فعّالة في تصنيف المستندات مثل المقالات الإخبارية إلى مواضيع (مثل الرياضة والسياسة والتكنولوجيا) أو تحديد المشاعر (إيجابية أو سلبية أو محايدة) المعبر عنها في المراجعات النصية أو منشورات وسائل التواصل الاجتماعي. يستخدم ترددات الكلمات أو التواجد كميزات. وتستخدم العديد من البرامج التعليمية التمهيدية لتصنيف النصوص ساذج بايز.
  3. التشخيص الطبي: على الرغم من أنه أصبح أقل شيوعًا الآن مع ظهور التعلم العميق في تحليل الصور الطبية، فقد تم استخدام تقنية "باييف بايز الساذج" للاقتراحات التشخيصية الأولية بناءً على أعراض المريض (السمات)، بافتراض استقلالية الأعراض في ظل وجود مرض ما.
  4. أنظمة التوصية: يمكن لأنظمة التوصية البسيطة استخدام أنظمة التوصية البسيطة استخدام أنظمة التوصية الساذجة لاقتراح العناصر بناءً على تفضيلات المستخدم وسلوكه السابق، ومعالجة تفاعلات المستخدم كميزات.

المزايا والعيوب

المزايا:

  • السرعة والبساطة: سهل التنفيذ وسريع جدًا من الناحية الحسابية لكل من التدريب والتنبؤ.
  • كفاءة البيانات: أداء جيد نسبيًا حتى مع وجود كميات صغيرة من بيانات التدريب.
  • قابلية التوسع: يتعامل مع البيانات عالية الأبعاد (العديد من الميزات) بفعالية، كما هو الحال في تحليل النصوص.
  • تعدد الاستخدامات: يعمل مع كل من البيانات المستمرة والمنفصلة من خلال متغيرات مختلفة.

العيوب:

  • افتراض الاستقلالية الساذج: غالبًا ما يتم انتهاك الافتراض الأساسي لاستقلالية الميزات، مما قد يحد من الدقة.
  • مشكلة التردد الصفري: إذا لم يتم رؤية قيمة سمة في بيانات الاختبار مع فئة معينة أثناء التدريب، فإن النموذج يخصص لها احتمالاً صفرياً، مما قد يؤدي إلى هيمنة التنبؤ الكلي. غالبًا ما يتم التعامل مع هذا الأمر باستخدام تقنيات التنعيم مثل تنعيم لابلاس (أو التنعيم الإضافي).

مقارنة مع الخوارزميات الأخرى

  • مقابل الانحدار اللوجستي: غالبًا ما يستخدم كلاهما لمهام تصنيف مماثلة. ويُعتبر نموذج باي الساذج نموذجاً توليدياً، بينما الانحدار اللوجستي نموذجاً تمييزياً. يمكن أن يكون أداء باييه الساذج أفضل مع مجموعات البيانات الأصغر أو الأبعاد العالية، بينما قد يكون الانحدار اللوجستي أفضل إذا كان افتراض الاستقلالية منتهكًا بشدة.
  • مقابل آلات دعم المتجهات (SVM): غالبًا ما تحقق آلات SVMs دقة أعلى من خلال إيجاد مستوى فرعي فاصل مثالي والتعامل مع تفاعلات الميزات بشكل أفضل، ولكن تدريبها أبطأ بشكل عام من تدريب آلات SVMs الساذجة.
  • مقابل أشجار القرار/الغابات العشوائية: يمكن للطرق المستندة إلى الأشجار نمذجة العلاقات غير الخطية المعقدة وتفاعلات السمات بشكل صريح، وهو ما لا يمكن أن تلتقطه باييهات الساذجة بسبب افتراض استقلاليتها. ومع ذلك، يمكن أن تكون الباييس الساذجة أسرع وتتطلب ذاكرة أقل.
  • مقابل نماذج التعلم العميق: النماذج المعقدة مثل الشبكات العصبية التلافيفية (CNNs) أو المحولات، بما في ذلك تلك المستخدمة في Ultralytics YOLOللرؤية الحاسوبية، وعادةً ما تتفوق في الأداء على نماذج الباييس الساذجة في المهام التي تتطلب فهم الأنماط المعقدة (مثل تصنيف الصور واكتشاف الأجسام). ومع ذلك، يتطلب برنامج Naive Bayes الساذج بيانات وموارد حاسوبية أقل بكثير مثل وحدات معالجة الرسومات ووقت تدريب أقل، مما يجعله خط أساس أو أداة قيّمة للمشاكل الأبسط. تركز منصات مثل Ultralytics HUB على نشر نماذج التعلم العميق المتطورة، والتي تعمل بشكل مختلف عن نماذج Naive Bayes.

تتوفر تطبيقات بايز الساذج بسهولة في مكتبات التعلم الآلي الشائعة مثل Scikit-learn. على الرغم من أنها ليست الأحدث في المهام المعقدة التي يهيمن عليها التعلّم العميق، إلا أن خوارزمية Naive Bayes تظل خوارزمية أساسية في مجموعة أدوات تعلّم الآلة تُقدّر لسرعتها وبساطتها وفعاليتها في مجالات محددة، لا سيما معالجة النصوص. يعد تقييم النماذج باستخدام مقاييس مثل تلك التي تمت مناقشتها في مقاييس أداءYOLO أمرًا بالغ الأهمية بغض النظر عن الخوارزمية المستخدمة.

قراءة الكل