التنقيب عن البيانات هو عملية اكتشاف الأنماط والارتباطات والحالات الشاذة وغيرها من الرؤى القيّمة المخبأة في مجموعات البيانات الكبيرة. وهي تجمع بين تقنيات من التعلم الآلي (ML) والإحصاءات وأنظمة قواعد البيانات لتحويل البيانات الخام إلى معلومات ومعرفة مفيدة. في مجال الذكاء الاصطناعي (AI)، يُعد التنقيب في البيانات خطوة حاسمة في فهم خصائص البيانات، وإعداد البيانات لتدريب النماذج، والكشف عن الهياكل الأساسية التي تقود عملية اتخاذ القرارات الذكية. غالبًا ما يشار إلى الفكرة الأساسية باسم اكتشاف المعرفة في قواعد البيانات (KDD).
تقنيات التنقيب عن البيانات الرئيسية
يشمل التنقيب في البيانات مجموعة متنوعة من التقنيات المستخدمة لاستكشاف البيانات وتحليلها من وجهات نظر مختلفة. وتشمل بعض الأساليب الشائعة ما يلي:
- التصنيف: تعيين نقاط البيانات إلى فئات أو فئات محددة مسبقًا. يُستخدم في مهام مثل اكتشاف البريد الإلكتروني غير المرغوب فيه أو تصنيف الصور.
- التجميع: تجميع نقاط البيانات المتشابهة معًا دون معرفة مسبقة بالمجموعات. مفيد لتقسيم العملاء أو تحديد الأنماط المميزة في البيانات البيولوجية. راجع خوارزميات مثل K-Means أو DBSCAN.
- الانحدار: التنبؤ بالقيم العددية المستمرة، مثل التنبؤ بالمبيعات أو تقدير أسعار المنازل. ومن أمثلة ذلك الانحدار الخطي.
- التنقيب عن قواعد الارتباط: اكتشاف العلاقات أو الارتباطات بين العناصر في مجموعات البيانات الكبيرة، ويشتهر استخدامه في تحليل سلة السوق لفهم عادات الشراء.
- اكتشاف الشذوذ: تحديد نقاط البيانات أو الأحداث التي تنحرف بشكل كبير عن القاعدة، وهو أمر بالغ الأهمية للكشف عن الاحتيال أو تحديد القيم المتطرفة في بيانات الاستشعار.
- تقليل الأبعاد: تقليل عدد المتغيرات (السمات) قيد الدراسة مع الحفاظ على المعلومات المهمة، وغالبًا ما يتم ذلك باستخدام تقنيات مثل تحليل المكونات الرئيسية (PCA).
عملية التنقيب عن البيانات
عادةً ما يكون التنقيب عن البيانات عملية تكرارية تنطوي على عدة مراحل:
- فهم الأعمال: تحديد أهداف المشروع ومتطلباته.
- فهم البيانات: جمع البيانات الأولية واستكشافها للتعرف على البيانات.
- إعداد البيانات: ويتضمن ذلك تنظيف البيانات (التعامل مع القيم المفقودة والضوضاء)، وتكامل البيانات (الجمع بين المصادر)، واختيار البيانات (اختيار البيانات ذات الصلة)، والمعالجة المسبقة للبيانات (تنسيق البيانات). يمكن أيضًا تطبيق زيادة البيانات هنا.
- النمذجة: اختيار وتطبيق تقنيات التنقيب المختلفة (مثل التصنيف والتجميع) لتحديد الأنماط. وغالباً ما يتضمن ذلك استخدام خوارزميات التعلم الآلي.
- التقييم: تقييم الأنماط المكتشفة من حيث الصلاحية والجدة والفائدة وقابلية الفهم. وغالباً ما تُستخدم مقاييس مثل الدقة أو mAP.
- النشر: الاستفادة من المعرفة المكتشفة في اتخاذ القرارات، وغالباً ما يتم دمجها في الأنظمة التشغيلية أو الإبلاغ عن النتائج. وقد يشمل ذلك نشر النموذج.
التنقيب عن البيانات مقابل المفاهيم ذات الصلة
على الرغم من ارتباطها ببعضها، إلا أن التنقيب عن البيانات يختلف عن المجالات الأخرى التي تركز على البيانات:
- تحليلات البيانات: تحليلات البيانات هو مصطلح أوسع نطاقًا يشمل العملية الكاملة لفحص البيانات وتنظيفها وتحويلها ونمذجتها لدعم عملية صنع القرار. أما التنقيب في البيانات فهو خطوة محددة ضمن تحليلات البيانات تركز على اكتشاف أنماط جديدة وخفية. وغالبًا ما تركز التحليلات على الإحصاءات الوصفية والعلاقات المعروفة، بينما يبحث التنقيب عن المجهول.
- التعلم الآلي (ML): التعلم الآلي هو مجال من مجالات الذكاء الاصطناعي يركز على تطوير خوارزميات تسمح للأنظمة بالتعلم من البيانات. ويستخدم التنقيب عن البيانات خوارزميات تعلّم الآلة كأدوات لاكتشاف الأنماط، لكن تعلّم الآلة نفسه أوسع نطاقًا، حيث يشمل إنشاء وتطبيق خوارزميات التعلّم لمختلف المهام (التنبؤ والتصنيف وما إلى ذلك). هدف التنقيب عن البيانات هو في المقام الأول اكتشاف المعرفة من البيانات.
- البيانات الضخمة: تشير البيانات الضخمة إلى مجموعات البيانات التي تتميز بالحجم الكبير والسرعة العالية والتنوع الواسع. وتعد تقنيات التنقيب عن البيانات ضرورية لاستخراج القيمة من البيانات الضخمة، ولكن البيانات الضخمة نفسها تصف طبيعة البيانات وليس عملية التحليل. وغالبًا ما تُستخدم أدوات مثل Apache Spark لاستخراج البيانات الضخمة.
تطبيقات الذكاء الاصطناعي/التعلم الآلي في العالم الحقيقي
يقود التنقيب عن البيانات الابتكار في العديد من القطاعات:
- تجارة التجزئة والتجارة الإلكترونية: يستخدم تجار التجزئة التنقيب عن قواعد الارتباط (تحليل سلة السوق) على بيانات المعاملات لاكتشاف المنتجات التي يتم شراؤها معًا بشكل متكرر. وتفيد هذه الرؤية في تصميم تخطيط المتجر، والعروض الترويجية المستهدفة، وتشغيل أنظمة التوصيات عبر الإنترنت ("العملاء الذين اشتروا X اشتروا أيضًا Y"). ويساعد ذلك على تحسين إدارة المخزون القائمة على الذكاء الاصطناعي وإضفاء الطابع الشخصي على تجارب العملاء، كما هو الحال في منصات مثل Amazon.
- الرعاية الصحية: تعمل تقنيات التنقيب عن البيانات مثل التصنيف والتجميع على تحليل سجلات المرضى (السجلات الصحية الإلكترونية) والصور الطبية لتحديد الأنماط المرتبطة بالأمراض، أو التنبؤ بعوامل الخطر لدى المرضى، أو تقييم فعالية العلاج. على سبيل المثال، يمكن أن يساعد التنقيب عن البيانات التشخيصية في الكشف المبكر عن حالات مثل السرطان (على سبيل المثال، باستخدام مجموعات بيانات مثل مجموعة بيانات أورام الدماغ) أو التنبؤ بإعادة إدخال المرضى إلى المستشفى، مما يساهم في تحسين رعاية المرضى وتخصيص الموارد داخل مؤسسات مثل المعاهد الوطنية للصحة. استكشف الذكاء الاصطناعي في حلول الرعاية الصحية لمزيد من الأمثلة.