Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تجميع K-Means

استكشف تجميع K-Means للتعلم غير الخاضع للإشراف. اكتشف كيف تقسم هذه الخوارزمية البيانات، وتعزز تطبيقات الذكاء الاصطناعي، وتزود نماذج مثل Ultralytics بالمعلومات.

تعد K-Means Clustering خوارزمية أساسية ومستخدمة على نطاق واسع في مجال التعلم غير الخاضع للإشراف والمصممة لكشف الهياكل الخفية داخل البيانات غير المصنفة. هدفها الأساسي هو تقسيم مجموعة البيانات إلى مجموعات فرعية متميزة، تُعرف باسم العناقيد، بحيث تكون نقاط البيانات داخل نفس المجموعة متشابهة قدر الإمكان، في حين تكون النقاط الموجودة في مجموعات مختلفة متميزة. كحجر أساس في استخراج البيانات والتحليل الاستكشافي، تمكّن K-Means علماء البيانات من تنظيم المعلومات المعقدة تلقائيًا في فئات قابلة للإدارة دون الحاجة إلى تصنيفات محددة مسبقًا أو إشراف بشري.

كيف تعمل الخوارزمية

تعمل K-Means بشكل تكراري وتعتمد على مقاييس المسافة لتحديد التجميع الأمثل لبيانات التدريب. تعمل الخوارزمية عن طريق تنظيم العناصر في مجموعات حيث ينتمي كل عنصر إلى المجموعة ذات المتوسط الأقرب، أو المركز. تقلل هذه العملية التباين داخل كل مجموعة. يتبع سير العمل بشكل عام الخطوات التالية:

  1. التهيئة: تختار الخوارزمية K نقاط أولية كنقاط مركزية. يمكن اختيار هذه النقاط عشوائياً أو عبر طرق محسّنة مثل k-means++ لتسريع التقارب.
  2. المهمة: يتم تعيين كل نقطة بيانات في مجموعة البيانات إلى أقرب مركز ثقل بناءً على مقياس مسافة محدد ، وغالبًا ما يكون المسافة الأوقليدية.
  3. تحديث: يتم إعادة حساب المراكز عن طريق أخذ متوسط (متوسط) جميع نقاط البيانات المخصصة لتلك المجموعة.
  4. التكرار: يتم تكرار الخطوتين 2 و 3 حتى تتوقف النقاط المركزية عن التحرك بشكل ملحوظ أو يتم الوصول إلى الحد الأقصى لعدد مرات التكرار.

يعد تحديد العدد الصحيح للمجموعات (K) جانبًا مهمًا في استخدام هذه الخوارزمية. غالبًا ما يستخدم الممارسون تقنيات مثل طريقة Elbow أو يحللون نتيجة Silhouette لتقييم مدى فصل المجموعات الناتجة.

تطبيقات العالم الحقيقي في الذكاء الاصطناعي

تعد تقنية K-Means Clustering متعددة الاستخدامات للغاية وتجد فائدة في مختلف الصناعات للتبسيط و المعالجة المسبقة للبيانات.

  • ضغط الصور وتكمية الألوان: في رؤية الكمبيوتر (CV)، تساعد K-Means في تقليل حجم ملفات الصور عن طريق تجميع ألوان البكسل. من خلال تجميع آلاف الألوان في مجموعة أصغر من الألوان السائدة ، تقوم الخوارزمية بشكل فعال بتقليل الأبعاد مع الحفاظ على البنية البصرية للصورة. غالبًا ما تستخدم هذه التقنية قبل تدريب نماذج الكشف عن الكائنات المتقد مة لتطبيع بيانات الإدخال.
  • تقسيم العملاء: تستفيد الشركات من التجميع لتصنيف العملاء بناءً على تاريخ الشراء أو الخصائص الديموغرافية أو سلوكهم على الموقع الإلكتروني. وهذا يتيح وضع استراتيجيات تسويقية موجهة، وهو عنصر أساسي في حلول الذكاء الاصطناعي في مجال البيع بالتجزئة. من خلال تحديد المتسوقين ذوي القيمة العالية أو مخاطر فقدان العملاء، يمكن للشركات تخصيص رسائلها بشكل فعال.
  • كشف الحالات الشاذة: من خلال تعلم بنية مجموعات البيانات "العادية"، يمكن للأنظمة تحديد القيم المتطرفة التي تبعد كثيرًا عن أي مركز. وهذا أمر مهم للغاية في كشف الاحتيال في مجال التمويل وكشف الحالات الشاذة في أمن الشبكات، مما يساعد في الإبلاغ عن الأنشطة المشبوهة التي تحيد عن الأنماط القياسية.
  • إنشاء مربعات التثبيت: تاريخياً، كانت أجهزة الكشف عن الكائنات مثل YOLO القديمة YOLO تستخدم K-Means لحساب مربعات التثبيت المثلى من مجموعات بيانات التدريب . في حين أن النماذج الحديثة مثل YOLO26 تستخدم طرقاً متقدمة خالية من التثبيت، فإن فهم K-Means لا يزال ذا صلة بتطور بنى الكشف.

مثال على التنفيذ

بينما تتعامل أطر التعلم العميق مثل Ultralytics مع مسارات التدريب المعقدة، غالبًا ما يستخدم K-Means لتحليل إحصائيات مجموعات البيانات. يوضح Python التالي كيفية تجميع الإحداثيات ثنائية الأبعاد — محاكاة مراكز الكائنات — باستخدام مكتبة Scikit-learn الشهيرة .

import numpy as np
from sklearn.cluster import KMeans

# Simulated coordinates of detected objects (e.g., from YOLO26 inference)
points = np.array([[10, 10], [12, 11], [100, 100], [102, 101], [10, 12], [101, 102]])

# Initialize K-Means to find 2 distinct groups (clusters)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto").fit(points)

# Output the cluster labels (0 or 1) for each point
print(f"Cluster Labels: {kmeans.labels_}")
# Output: [1 1 0 0 1 0] -> Points near (10,10) are Cluster 1, near (100,100) are Cluster 0

مقارنة مع الخوارزميات ذات الصلة

من المهم التمييز بين K-Means والخوارزميات الأخرى ذات الأسماء أو الوظائف المماثلة لضمان اختيار الأداة الصحيحة للمشروع.

  • K-Means مقابل K-Nearest Neighbors (KNN): غالبًا ما يتم الخلط بينهما بسبب حرف "K" في أسمائهما. K-Means هو خوارزمية غير خاضعة للإشراف تُستخدم لتجميع البيانات غير المصنفة. في المقابل، K-Nearest Neighbors (KNN) هو خوارزمية تعلم خاضعة للإشراف تُستخدم لتصنيف الصور والانحدار، وتعتمد على البيانات المصنفة لإجراء تنبؤات بناءً على فئة الأغلبية من الجيران.
  • K-Means مقابل DBSCAN: في حين أن كلاهما يقوم بتجميع البيانات، فإن K-Means يفترض أن المجموعات كروية ويتطلب تحديد عدد المجموعات مسبقًا. أماDBSCAN فيقوم بتجميع البيانات بناءً على الكثافة، ويمكنه العثور على مجموعات ذات أشكال عشوائية، ويتعامل مع الضوضاء بشكل أفضل. وهذا يجعل DBSCAN أفضل في التعامل مع البيانات المكانية المعقدة الموجودة في مجموعات البيانات ذات الهياكل غير المنتظمة حيث يكون عدد المجموعات غير معروف.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن