مسرد المصطلحات

البيانات الضخمة

اكتشف قوة البيانات الضخمة في الذكاء الاصطناعي/التعلم الآلي! تعلم كيف تغذي مجموعات البيانات الضخمة التعلم الآلي وأدوات المعالجة والتطبيقات الواقعية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تشير البيانات الضخمة إلى مجموعات البيانات الضخمة والمعقدة للغاية التي تنمو بشكل كبير مع مرور الوقت. مجموعات البيانات هذه ضخمة للغاية ويتم توليدها بسرعات عالية لدرجة أن البرامج التقليدية لمعالجة البيانات وأدوات إدارة قواعد البيانات غير كافية لالتقاطها وإدارتها ومعالجتها بكفاءة. يُعد فهم البيانات الضخمة أمرًا أساسيًا في العصر الحديث للذكاء الاصطناعي (AI) والتعلم الآلي (ML)، حيث تُعد مجموعات البيانات الضخمة هذه بمثابة الوقود الأساسي لتدريب نماذج التعلم العميق المتطورة (DL) القادرة على تحديد الأنماط المعقدة وإجراء التنبؤات.

خصائص البيانات الضخمة (The Vs)

تُعرّف البيانات الضخمة عادةً بالعديد من الخصائص الرئيسية، والتي غالبًا ما تسمى "Vs"، والتي تساعد على تمييزها عن البيانات التقليدية:

  • الحجم: يشير هذا إلى الكمية الهائلة من البيانات التي يتم توليدها وجمعها، وغالبًا ما تقاس بالتيرابايت أو البيتابايت أو حتى الإكسابايت. وتشمل المصادر بيانات الاستشعار، وموجزات وسائل التواصل الاجتماعي، وسجلات المعاملات، وسجلات الآلات. تتطلب معالجة هذا الحجم حلول تخزين قابلة للتطوير وأطر حوسبة موزعة.
  • السرعة: يصف ذلك السرعة التي يتم بها إنشاء البيانات الجديدة وتحتاج إلى معالجتها. تتطلب العديد من التطبيقات الاستدلال والتحليل في الوقت الحقيقي، مما يتطلب قدرات عالية السرعة في استيعاب البيانات ومعالجتها، وغالبًا ما يتم تسهيل ذلك من خلال أدوات مثل Apache Kafka.
  • التنوع: تأتي البيانات الضخمة بتنسيقات متنوعة. فهي تتضمن بيانات منظمة (مثل قواعد البيانات العلائقية)، وبيانات شبه منظمة (مثل ملفات JSON أو XML )، وبيانات غير منظمة (مثل المستندات النصية والصور ومقاطع الفيديو والملفات الصوتية). يتطلب التعامل مع هذا التنوع تخزينًا مرنًا للبيانات وأدوات تحليلية قادرة على معالجة أنواع البيانات المختلفة.
  • المصداقية: يتعلق هذا الأمر بجودة البيانات ودقتها وموثوقيتها. غالبًا ما تحتوي البيانات الضخمة على ضوضاء وتناقضات وتحيزات، مما يستلزم تقنيات قوية لتنظيف البيانات والمعالجة المسبقة لضمان نتائج تحليل ونماذج موثوقة. يعد تحيز مجموعة البيانات مصدر قلق كبير هنا.
  • القيمة: في نهاية المطاف، يتمثل الهدف من جمع البيانات الضخمة وتحليلها في استخلاص رؤى ذات مغزى وقيمة تجارية. وينطوي ذلك على تحديد الأنماط والاتجاهات ذات الصلة التي يمكن أن تفيد في اتخاذ القرارات أو تحسين العمليات أو دفع عجلة الابتكار.

الملاءمة في الذكاء الاصطناعي والتعلم الآلي

البيانات الضخمة هي حجر الزاوية للعديد من التطورات في مجال الذكاء الاصطناعي والتعلم الآلي. تُعد مجموعات البيانات الكبيرة والمتنوعة ضرورية لتدريب النماذج القوية، لا سيما الشبكات العصبية (NN)، مما يمكّنها من تعلم العلاقات المعقدة داخل البيانات وتحقيق مستويات عالية من الدقة. على سبيل المثال، فإن تدريب أحدث نماذج الرؤية الحاسوبية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام أو تجزئة الصور يتطلب كميات هائلة من البيانات المرئية المصنفة. وبالمثل، تعتمد نماذج معالجة اللغات الطبيعية (NLP) مثل Transformers على مجموعات نصية ضخمة.

تستلزم معالجة مجموعات البيانات الكبيرة هذه بكفاءة بنية تحتية قوية للأجهزة، وغالبًا ما تستفيد من وحدات معالجة الرسومات (GPU) أو وحدات معالجة الرسومات ( TPU)، وأطر الحوسبة الموزعة مثل Apache Spark. وتوفر منصات مثل Ultralytics HUB أدوات لإدارة عمليات سير عمل تدريب النماذج واسعة النطاق هذه، مما يبسّط إدارة مجموعة البيانات وتتبع التجارب ونشر النماذج.

تطبيقات الذكاء الاصطناعي/التعلم الآلي في العالم الحقيقي

تغذي البيانات الضخمة العديد من التطبيقات التي تعتمد على الذكاء الاصطناعي في مختلف الصناعات:

  • أنظمة التوصية: تقوم خدمات البث مثل نتفليكس ومنصات التجارة الإلكترونية بتحليل كميات هائلة من بيانات تفاعل المستخدم (سجل المشاهدة وأنماط الشراء والنقرات) لتدريب خوارزميات نظام التوصيات المتطورة. وتوفر هذه الخوارزميات اقتراحات مخصصة، مما يعزز مشاركة المستخدم ومبيعاته.
  • السيارات ذاتية القيادة: تولد السيارات ذاتية القيادة كميات هائلة من البيانات في الثانية الواحدة من أجهزة الاستشعار مثل الكاميرات والرادار والرادار. تتم معالجة هذه البيانات الضخمة في الوقت الفعلي باستخدام نماذج الذكاء الاصطناعي لمهام مثل اكتشاف الأجسام وتخطيط المسار واتخاذ القرارات، كما هو مفصّل في الذكاء الاصطناعي في السيارات ذاتية القيادة. تعتمد شركات مثل Waymo بشكل كبير على تحليلات البيانات الضخمة لتطوير وتحسين تكنولوجيا القيادة الذاتية الخاصة بها.
  • الرعاية الصحية: يتيح تحليل البيانات الضخمة في مجال الرعاية الصحية تطبيقات مثل التشخيص التنبؤي والطب الشخصي واكتشاف الأدوية. ويساعد تحليل كميات كبيرة من السجلات الصحية الإلكترونية (EHRs) والبيانات الجينومية والصور الطبية في تحديد أنماط الأمراض وفعالية العلاج(مجلة الذكاء الاصطناعي).
  • الزراعة: تستفيد الزراعة الدقيقة من البيانات الضخمة المستمدة من أجهزة الاستشعار والطائرات بدون طيار والأقمار الصناعية لتحسين غلة المحاصيل ومراقبة صحة التربة وإدارة الموارد بكفاءة، مما يساهم في التقدم في حلول الذكاء الاصطناعي في الزراعة.

البيانات الضخمة مقابل المفاهيم ذات الصلة

من المفيد التمييز بين البيانات الضخمة والمصطلحات ذات الصلة:

  • البيانات التقليدية: عادةً ما تكون أصغر حجمًا، ويتم توليدها بسرعة أقل، وأكثر تنظيمًا، ويمكن إدارتها باستخدام أنظمة قواعد البيانات العلائقية التقليدية (مثل SQL). تتطلب البيانات الضخمة أدوات متخصصة مثل نظام Hadoop أو Spark للمعالجة بسبب حجمها وتعقيدها.
  • التنقيب عن البيانات: هي عملية اكتشاف الأنماط والمعرفة من مجموعات البيانات الكبيرة، بما في ذلك البيانات الضخمة. يتم تطبيق تقنيات التنقيب عن البيانات (مثل التجميع والتصنيف) على البيانات الضخمة لاستخراج القيمة.
  • بحيرة البيانات: بحيرة البيانات عبارة عن مستودع مركزي مصمم لتخزين كميات هائلة من البيانات الأولية (المهيكلة وشبه المهيكلة وغير المهيكلة) بصيغتها الأصلية. على عكس مستودعات البيانات التقليدية التي تخزن البيانات المعالجة والمنظمة، توفر بحيرات البيانات المرونة لمختلف المهام التحليلية على البيانات الضخمة. توفر منصات الحوسبة السحابية مثل AWS Google Cloud حلولاً قوية لبحيرات البيانات.
  • تحليلات البيانات: هذا هو المجال الأوسع لفحص مجموعات البيانات لاستخلاص النتائج. غالبًا ما تنطوي تحليلات البيانات على البيانات الضخمة على تقنيات متقدمة، بما في ذلك التعلم الآلي والنمذجة الإحصائية، للتعامل مع الحجم والتعقيد.

تنطوي إدارة البيانات الضخمة بفعالية على تحديات تتعلق بالبنية التحتية للتخزين، وتكاليف المعالجة، وضمان أمن البيانات وخصوصية البيانات، والحفاظ على جودة البيانات (Veracity). ومع ذلك، فإن التغلب على هذه التحديات يفتح إمكانات هائلة للابتكار المدفوع بالذكاء الاصطناعي والتعلم الآلي.

قراءة الكل