K-أقرب الجيران (KNN)
اكتشف كيف تُبسّط K-Nearest Neighbours (KNN) التعلّم الآلي من خلال نهجها البديهي غير البارامترى لمهام التصنيف والانحدار.
K-Nearest Neighbours (KNN) هي خوارزمية تعلّم تحت الإشراف تُستخدم في مهام التصنيف والانحدار. تُعتبر خوارزمية قائمة على المثيل أو خوارزمية "التعلّم الكسول" لأنها لا تبني نموذجًا أثناء مرحلة تدريب البيانات. وبدلاً من ذلك، تقوم بتخزين مجموعة البيانات بأكملها وتقوم بعمل تنبؤات من خلال إيجاد الحالات "K" الأكثر تشابهًا (الجيران) في البيانات المخزنة. الفكرة الأساسية هي أن نقاط البيانات المتشابهة موجودة على مقربة من بعضها البعض. بالنسبة لنقطة بيانات جديدة غير مصنفة، تقوم شبكة KNN بتحديد أقرب جيرانها وتستخدم تسمياتها لتحديد تصنيفها أو قيمتها.
كيف تعمل شبكة KNN؟
تعمل خوارزمية KNN على مبدأ بسيط للتشابه يقاس عادةً بمقياس المسافة. وأكثر هذه المقاييس شيوعًا هو المسافة الإقليدية (Euclidean)، على الرغم من أنه يمكن استخدام مقاييس أخرى اعتمادًا على مجموعة البيانات.
عملية إجراء التنبؤ واضحة ومباشرة:
- اختر قيمة K: يُعد عدد الجيران (K) الذي يجب أخذه في الاعتبار معيارًا فائقًا بالغ الأهمية. يمكن أن يؤثر اختيار K بشكل كبير على أداء النموذج.
- حساب المسافات: بالنسبة لنقطة بيانات جديدة، تحسب الخوارزمية المسافة بينها وبين كل نقطة أخرى في مجموعة بيانات التدريب.
- تحديد الجيران: يحدد نقاط البيانات K من مجموعة التدريب الأقرب إلى النقطة الجديدة. هذه هي "أقرب الجيران".
- قم بالتنبؤ:
- بالنسبة لمهام التصنيف، تقوم الخوارزمية بإجراء تصويت بالأغلبية. يتم تصنيف نقطة البيانات الجديدة إلى الفئة الأكثر شيوعًا بين أقرب جيرانها K. على سبيل المثال، إذا كانت K=5 وكان ثلاثة من جيرانها من الفئة A واثنان من الفئة B، يتم تصنيف النقطة الجديدة على أنها من الفئة A.
- بالنسبة لمهام الانحدار، تحسب الخوارزمية متوسط قيم أقرب جيرانها K. يصبح هذا المتوسط هو القيمة المتوقعة لنقطة البيانات الجديدة.
التطبيقات الواقعية
إن بساطة شبكة KNN وطبيعتها البديهية تجعلها مفيدة في تطبيقات مختلفة، خاصةً كنموذج أساسي.
- أنظمة التوصية: تُعد شبكة المعرفة الشبكية المتشابهة خيارًا شائعًا لبناء محركات التوصية. على سبيل المثال، يمكن لخدمة البث أن توصي مستخدمًا بأفلام من خلال تحديد المستخدمين الآخرين (الجيران) الذين لديهم تاريخ مشاهدة مماثل. ثم يتم التوصية بالأفلام التي استمتع بها هؤلاء الجيران والتي لم يشاهدها المستخدم المستهدف. هذه التقنية هي شكل من أشكال التصفية التعاونية.
- الخدمات المالية: في مجال التمويل، يمكن استخدام KNN لتسجيل الائتمان. من خلال مقارنة مقدم طلب قرض جديد بقاعدة بيانات لمقدمي الطلبات السابقين الذين لديهم نتائج ائتمانية معروفة، يمكن للخوارزمية التنبؤ بما إذا كان من المحتمل أن يتخلف مقدم الطلب الجديد عن السداد. الجيران هم مقدمو الطلبات السابقون الذين لديهم ملفات مالية مماثلة (على سبيل المثال، العمر والدخل ومستوى الدين)، ويؤدي تاريخهم التخلف عن السداد إلى التنبؤ. وهذا يساعد على أتمتة التقييمات الأولية للمخاطر.
KNN مقابل المفاهيم ذات الصلة
من المهم التمييز بين KNN وخوارزميات التعلم الآلي الشائعة الأخرى:
- التجميع K-Means Clusterering: على الرغم من تشابه الاسمين، إلا أن وظائفهما مختلفة تمامًا. K-Means هي خوارزمية تعلّم غير خاضعة للإشراف تُستخدم لتقسيم البيانات إلى مجموعات فرعية (مجموعات) مميزة وغير متداخلة. وعلى النقيض من ذلك، فإن KNN هي خوارزمية خاضعة للإشراف تُستخدم للتنبؤ بناءً على البيانات المصنفة.
- آلة دعم المتجهات الداعمة (SVM): SVM هي خوارزمية خاضعة للإشراف تسعى للعثور على أفضل مستوى تشعبي ممكن يفصل بين الفئات المختلفة في فضاء الميزة. بينما تتخذ KNN قراراتها بناءً على التشابه المحلي بين الجيران، تهدف SVM إلى إيجاد حدود مثالية عالمية، مما يجعلها مختلفة بشكل أساسي في نهجها. يمكن العثور على مزيد من التفاصيل على صفحة Scikit-learn SVM.
- أشجار القرار: تصنف شجرة القرار البيانات من خلال إنشاء نموذج للقرارات الهرمية القائمة على القواعد. وينتج عن ذلك بنية شبيهة بالشجرة، بينما تعتمد KNN على التشابه القائم على المسافة دون تعلم قواعد صريحة. يمكنك معرفة المزيد من خلال وثائق Scikit-learn Decision Trees.
في حين أن KNN هي أداة قيّمة لفهم مفاهيم التعلّم الآلي الأساسية ولاستخدامها على مجموعات بيانات أصغر ومنسقة بشكل جيد، إلا أنها قد تكون مكثفة من الناحية الحسابية للاستدلال في الوقت الحقيقي مع البيانات الضخمة. أما بالنسبة لمهام الرؤية الحاسوبية المعقدة مثل اكتشاف الأجسام في الوقت الحقيقي، يُفضل استخدام نماذج أكثر تقدمًا مثل Ultralytics YOLO لسرعتها ودقتها الفائقة. يمكن تدريب هذه النماذج ونشرها بسهولة باستخدام منصات مثل Ultralytics HUB.