اكتشف ماهية بحيرات البيانات، وميزاتها، وفوائدها، ودورها في الذكاء الاصطناعي/التعلم الآلي. تعرف على كيفية تحويلها لإدارة وتحليل البيانات الضخمة.
بحيرة البيانات هي عبارة عن مستودع تخزين مركزي مصمم للاحتفاظ بكمية هائلة من البيانات بصيغتها الأصلية الخام. على عكس مستودع البيانات الهرمي التقليدي الذي يخزن البيانات في ملفات أو مجلدات، تستخدم بحيرة البيانات بنية مسطحة بنية مسطحة لتخزين البيانات، وعادةً ما تكون في تخزين الكائنات. يسمح هذا النهج للمؤسسات بتخزين البيانات المنظمة من قواعد البيانات العلائقية والبيانات شبه المنظمة (مثل CSV والسجلات و XML و JSON) و والبيانات غير المنظمة (مثل رسائل البريد الإلكتروني والمستندات وملفات PDF) وكذلك البيانات الثنائية (الصور والصوت والفيديو) دون معالجتها أولاً. بالنسبة للمحترفين العاملين في الذكاء الاصطناعي (AI) و والتعلم الآلي (ML)، توفر هذه البنية المرونة في الوصول إلى مجموعات بيانات ضخمة للتجريب والتحليل.
الميزة الأساسية لبحيرة البيانات بالنسبة لعلماء البيانات هي القدرة على تطبيق "المخطط عند القراءة". في قواعد البيانات التقليدية، يجب تحديد الهيكل (المخطط) قبل تخزين البيانات (المخطط عند الكتابة). في بحيرة البيانات، يتم تخزين البيانات الأولية أولاً، ويتم تطبيق الهيكل فقط عند للمعالجة. هذا أمر بالغ الأهمية ل لسير عمل التعلّم العميق (DL) حيث غالبًا ما تتغير متطلبات غالبًا ما تتغير متطلبات المعالجة المسبقة مع تطور النماذج.
غالبًا ما يستفيد المهندسون من خدمات الحوسبة السحابية مثل Amazon S3 أو Azure Data Lake Storage لبناء هذه المستودعات. تتكامل هذه المنصات بسلاسة مع أطر عمل المعالجة مثل Apache Spark، مما يسمح بالاستعلام الفعال و وتحليلات البيانات بكفاءة على مجموعات بيانات بحجم بيتابايت.
فيما يلي مثال بسيط لكيفية بدء برنامج نصي Python للتدريب باستخدام ملف تكوين مجموعة بيانات يشير إلى إلى البيانات المسحوبة من بيئة البحيرة:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
بحيرات البيانات هي العمود الفقري لمبادرات البيانات الضخمة الحديثة في مختلف الصناعات.
من المهم التفريق بين بحيرة البيانات ومفاهيم التخزين الأخرى:
يوفر تنفيذ بحيرة البيانات قابلية كبيرة للتوسع، مما يسمح للمؤسسات بتوسيع سعة التخزين بتكلفة أقل مقارنةً بالمستودعات التقليدية. كما أنه يعزز دمقرطة البيانات، مما يمنح فرق مختلفة الوصول إلى نفس مصدر البيانات الأولية لأغراض مختلفة، من تصور البيانات إلى البحث المتقدم.
ومع ذلك، تشمل التحديات الحفاظ على خصوصية البيانات والامتثال, خاصةً عند تخزين المعلومات الشخصية الحساسة (PII). بالإضافة إلى ذلك، بدون خطوط أنابيب قوية للمعالجة المسبقة للبيانات والحوكمة مثل كتالوج داتابريكس يونيتي كاتالوج، قد يكون من الصعب العثور على وسط حجم البيانات الخام قد يكون من الصعب العثور على رؤى قيّمة.