مسرد المصطلحات

بحيرة البيانات

اكتشف ما هي بحيرات البيانات وميزاتها وفوائدها ودورها في الذكاء الاصطناعي/التشغيل الآلي. تعرّف على كيفية تحويلها لإدارة البيانات الضخمة والتحليلات.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

بحيرة البيانات عبارة عن مستودع مركزي مصمم لتخزين كميات هائلة من البيانات الأولية بصيغتها الأصلية، دون فرض هيكل أو مخطط محدد مسبقًا عند الاستيعاب. على عكس قواعد البيانات التقليدية أو مستودعات البيانات التي تتطلب هيكلة البيانات قبل تخزينها، يمكن لبحيرة البيانات أن تحتوي على بيانات منظمة (مثل الجداول من قاعدة بيانات علائقية) وشبه منظمة (مثل ملفات JSON أو XML ) وبيانات غير منظمة (مثل الصور ومقاطع الفيديو والصوت والمستندات النصية وسجلات المستشعرات) جنبًا إلى جنب. هذه المرونة تجعلها ميزة لا تُقدَّر بثمن لتحليلات البيانات الحديثة، لا سيما في مجالات الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، حيث غالبًا ما تكون مجموعات البيانات المتنوعة مطلوبة.

المفاهيم الأساسية

تتمثل الفكرة الأساسية وراء بحيرة البيانات في توفير حل تخزين فعال من حيث التكلفة وقابل للتطوير بدرجة كبيرة للبيانات الضخمة. تشمل الخصائص الرئيسية ما يلي:

  • المخطط عند القراءة: على عكس مستودعات البيانات (المخطط عند الكتابة)، لا تطبق بحيرات البيانات الهيكل أو المخطط إلا عند قراءة البيانات لتحليلها. وهذا يسمح باستيعاب أسرع للبيانات الخام.
  • تخزين البيانات الخام: يتم تخزين البيانات بصيغتها الأصلية غير المعالجة. يحافظ هذا على جميع التفاصيل، والتي قد تكون مفيدة للتحليلات المستقبلية غير المتوقعة أو تدريب نموذج التعلم الآلي.
  • قابلية التوسع: عادةً ما تكون بحيرات البيانات مبنية على أنظمة الملفات الموزعة أو التخزين السحابي مثل Amazon S3 أو Google Cloud Storage، ويمكن أن تتوسع بحيرات البيانات بسهولة إلى بيتابايت أو حتى إكسابايت من البيانات.
  • أنواع بيانات متنوعة: تستوعب مجموعة كبيرة ومتنوعة من تنسيقات البيانات من مصادر مختلفة، وهو أمر بالغ الأهمية للتحليل الشامل في مجالات مثل الرؤية الحاسوبية. لمزيد من المعلومات، راجع وثائق AWS عن بحيرات البيانات.

بحيرة البيانات مقابل مستودع البيانات. مستودع البيانات

على الرغم من استخدام كل من بحيرات البيانات ومستودعات البيانات لتخزين كميات كبيرة من البيانات، إلا أنها تخدم أغراضًا مختلفة وتتعامل مع البيانات بشكل مختلف.

  • مستودع البيانات: يخزن البيانات المصفاة والمنظمة التي تمت معالجتها بالفعل لغرض معين (مخطط عند الكتابة). مُحسَّن لإعداد تقارير ذكاء الأعمال واستعلامات SQL. فكر في الأمر على أنه مخزن للمياه المعبأة في زجاجات - منقاة وجاهزة للشرب. استكشف مفاهيم تخزين البيانات من IBM لمزيد من التفاصيل.
  • بحيرة البيانات: تخزين البيانات الخام بتنسيقها الأصلي (مخطط عند القراءة). مثالية لاستكشاف البيانات والتنقيب عن البيانات وتدريب نماذج التعلم الآلي (ML) التي تتطلب الوصول إلى البيانات الأصلية غير المعالجة. فكر في الأمر كبحيرة طبيعية - المياه في شكلها الخام من مصادر مختلفة. تحدث المعالجة المسبقة للبيانات بعد استرجاع البيانات، وهي مصممة خصيصًا للمهمة التحليلية المحددة.

الملاءمة في الذكاء الاصطناعي والتعلم الآلي

تُعد بحيرات البيانات أساسية للعديد من عمليات سير عمل الذكاء الاصطناعي والتعلم الآلي، خاصةً في مجال التعلم العميق (DL). تُعد القدرة على تخزين كميات هائلة من البيانات الخام والمتنوعة ضرورية لتدريب النماذج المتطورة. يمكن لعلماء البيانات الوصول إلى هذه البيانات الأولية للقيام بمهام مثل التحليل الاستكشافي وتنظيف البيانات وهندسة الميزات وإنشاء بيانات تدريب عالية الجودة. على سبيل المثال، يمكن لمنصات مثل Ultralytics HUB الاستفادة من مجموعات البيانات (غالبًا ما يتم تنسيقها وإدارتها داخل بحيرات البيانات أو الحصول عليها من بحيرات البيانات) لتدريب نماذج مخصصة مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام أو تجزئة الصور أو تصنيف الصور. وغالبًا ما تتضمن العملية جمع البيانات والتعليقات التوضيحية على نطاق واسع قبل وصول البيانات إلى البحيرة.

التطبيقات الواقعية

تعمل بحيرات البيانات على تمكين تطبيقات الذكاء الاصطناعي/التعلم الآلي القوية من خلال توفير الحجم والتنوع اللازمين للبيانات. فيما يلي مثالان:

  1. تطوير المركبات ذاتية القيادة: تقوم الشركات التي تعمل على تطوير المركبات ذاتية القيادة بجمع كميات هائلة من بيانات أجهزة الاستشعار (تغذية الكاميرا، وسحب نقاط ليدار، والرادار، ونظام تحديد المواقع العالمي) من أساطيل الاختبار. يتم تفريغ هذه البيانات الأولية في بحيرة بيانات. ثم يصل المهندسون وعلماء البيانات إلى هذه البيانات لتدريب نماذج التعلُّم العميق والتحقق من صحتها لمهام مثل نماذج اكتشاف الأجسام لتحديد المشاة والمركبات الأخرى، والحفاظ على المسار، والملاحة. تعرَّف على كيفية استخدام شركات مثل Waymo للتكنولوجيا من أجل قدرات القيادة الذاتية.
  2. بناء أنظمة توصيات مخصصة: تستخدم منصات التجارة الإلكترونية وخدمات البث بحيرات البيانات لتخزين بيانات تفاعل المستخدم المتنوعة - النقرات وسجل المشاهدة وسجلات الشراء ونشاط وسائل التواصل الاجتماعي والتركيبة السكانية للمستخدم. تتم معالجة هذه البيانات الخام باستخدام أدوات مثل Apache Spark مباشرةً على بحيرة البيانات. ثم يتم تدريب نماذج التعلّم الآلي على هذه البيانات المعالجة لإنشاء أنظمة توصيات مخصصة، مما يحسّن من تفاعل المستخدم والمبيعات، كما هو واضح في حلول البيع بالتجزئة القائمة على الذكاء الاصطناعي.

الفوائد والتحديات

الفوائد:

  • المرونة: تخزين أي نوع بيانات دون هيكلة مسبقة.
  • قابلية التوسع: التعامل بسهولة مع أحجام البيانات الضخمة.
  • الفعالية من حيث التكلفة: يستفيد من خيارات التخزين منخفضة التكلفة.
  • إضفاء الطابع الديمقراطي على البيانات: إتاحة البيانات الخام لمختلف الفرق (علماء البيانات والمحللين).
  • التدقيق المستقبلي: الحفاظ على البيانات الأولية لحالات الاستخدام المستقبلية غير المعروفة.

التحديات:

  • حوكمة البيانات: يمكن أن يكون ضمان جودة البيانات ونسبها والتحكم في الوصول إليها أمرًا معقدًا.
  • الأمان: تتطلب حماية البيانات الخام الحساسة تدابير قوية لأمن البيانات وخصوصية البيانات.
  • مخاطر مستنقع البيانات: بدون الإدارة السليمة والبيانات الوصفية المناسبة، يمكن أن تصبح بحيرة البيانات غير منظمة ويصعب استخدامها بفعالية ("مستنقع بيانات").
  • التعقيد: يتطلب مهارات متخصصة للإدارة والتحليل. الممارسات الفعالة في مجال الإدارة والتحليل الإداري أمر بالغ الأهمية.

توفر بحيرات البيانات الحجم والمرونة اللازمين للتعامل مع الحجم المتزايد وتنوع البيانات المطلوبة لتشغيل حلول الذكاء الاصطناعي الحديثة. وهي عنصر حاسم في البنية التحتية للبيانات التي تدعم التحليلات المتقدمة وابتكارات التعلم الآلي.

قراءة الكل