استكشف تقنيات وتطبيقات استخراج البيانات. تعلم كيفية استخلاص الرؤى وتحديد الأنماط وتحسين سير عمل الذكاء الاصطناعي باستخدام Ultralytics .
استخراج البيانات هو عملية استكشاف وتحليل كتل كبيرة من المعلومات لاستخلاص أنماط واتجاهات ذات مغزى. وهو يقع في تقاطع الإحصاءات والتعلم الآلي (ML) وأنظمة قواعد البيانات، ويشكل خطوة حاسمة في مسار "اكتشاف المعرفة في قواعد البيانات" (KDD). من خلال غربلة كميات هائلة من المدخلات الأولية، يحول استخراج البيانات الضوضاء غير المنظمة إلى رؤى منظمة وقابلة للتنفيذ تستخدمها الشركات والباحثون لاتخاذ قرارات مستنيرة.
في سياق الذكاء الاصطناعي (AI) الحديث، غالبًا ما يكون استخراج البيانات مقدمة للنمذجة التنبؤية. قبل أن تتمكن الخوارزمية من التنبؤ بالمستقبل، يجب أن تفهم الماضي. على سبيل المثال، في الرؤية الحاسوبية (CV)، قد تحلل تقنيات الاستخراج آلاف الصور لتحديد السمات المشتركة — مثل الحواف أو القوام أو الأشكال — التي تحدد فئة كائن معين، مما يخلق الأساس لتدريب مجموعات البيانات القوية.
يعتمد استخراج البيانات على عدة منهجيات متطورة لكشف العلاقات الخفية داخل البيانات. تتيح هذه التقنيات للمحللين تجاوز مجرد تلخيص البيانات البسيط إلى اكتشافات عميقة.
تشمل فائدة استخراج البيانات جميع الصناعات تقريبًا، حيث تعزز الكفاءة والابتكار من خلال الكشف عن الأنماط التي لا يمكن رؤيتها بالعين المجردة.
في التصنيع الذكي، تُستخدم استخراج البيانات لتحليل بيانات أجهزة الاستشعار من الآلات. من خلال تطبيق خوارزميات الصيانة التنبؤية ، يمكن للمصانع توقع أعطال المعدات قبل حدوثها. علاوة على ذلك، يمكن لنماذج الرؤية الحاسوبية مثل YOLO26 إنشاء سجلات استدلال يتم استخراجها لتحديد أنواع العيوب المتكررة، مما يساعد المهندسين على تعديل عمليات الإنتاج لتقليل الهدر.
يغير التنقيب في البيانات مجال الرعاية الصحية من خلال تحليل السجلات الصحية الإلكترونية والتصوير الطبي. يقوم الباحثون بالتنقيب في البيانات الجينومية للعثور على الصلات بين تسلسلات جينية معينة والأمراض. في مجال الأشعة، يساعد التنقيب في مجموعات البيانات الكبيرة للأشعة السينية على تحديد المؤشرات المبكرة لحالات مثل الالتهاب الرئوي أو الأورام، مما يساعد في تحليل الصور الطبية.
لفهم التنقيب في البيانات بشكل كامل، من المفيد تمييزه عن المفاهيم الوثيقة الصلة به في مجال علم البيانات .
في سير عمل الرؤية الحاسوبية، غالبًا ما يحدث "التعدين" عند تحليل نتائج الاستدلال للعثور على اكتشافات عالية القيمة أو حالات حافة صعبة. يتم تبسيط هذه العملية باستخدام Ultralytics التي تساعد في إدارة مجموعات البيانات وتحليلها.
يوضح المثال التالي كيفية "استخراج" مجموعة من الصور للعثور على اكتشافات محددة عالية الثقة باستخدام نموذج YOLO26. وهذا يحاكي عملية تصفية تدفقات البيانات الضخمة للأحداث ذات الصلة.
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]
# Run inference on the batch
results = model(image_files)
# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
# Filter boxes where class is 0 (person) and confidence > 0.8
detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
if len(detections) > 0:
high_conf_people.append(result.path)
print(f"Found high-confidence people in: {high_conf_people}")
يوضح هذا المقتطف عملية التعدين الأساسية: تصفية التنبؤات الأولية لاستخراج مجموعة فرعية ذات أهمية — صور تحتوي على أشخاص تم تحديدهم بدرجة عالية من اليقين — والتي يمكن استخدامها بعد ذلك في التعلم النشط لتحسين أداء النموذج بشكل أكبر.