الذكاء الاصطناعي المرتكز على البيانات
اكتشف الذكاء الاصطناعي المرتكز على البيانات، وهو نهج لتحسين جودة مجموعة البيانات لتعزيز أداء النموذج. تعرف على سبب أهمية البيانات الأفضل، وليس مجرد نموذج أفضل، لتحقيق ذكاء اصطناعي قوي.
الذكاء الاصطناعي المرتكز على البيانات هو نهج استراتيجي لتطوير
أنظمة الذكاء الاصطناعي
الذي يركز في المقام الأول على تحسين جودة بيانات التدريب بدلاً من تكرار بنية النموذج.
في عمليات سير العمل التقليدية، غالبًا ما يتعامل المطورون مع مجموعة البيانات كمدخلات ثابتة ويبذلون جهدًا كبيرًا في تعديل
المعلمات الفائقة أو تصميم
الشبكة العصبية (NN) المعقدة. على النقيض من ذلك، فإن
تتعامل المنهجية المتمحورة حول البيانات مع شيفرة النموذج - مثل بنية
Ultralytics YOLO11-كخط أساس ثابت نسبيًا,
توجيه الجهود الهندسية نحو التنظيف المنهجي للبيانات، وتوصيف الاتساق والتوسيم والزيادة لتعزيز
الأداء.
الفلسفة الأساسية: الجودة على الكمية
إن فعالية أي
نظام التعلّم الآلي (ML) بشكل أساسي
محدودة بشكل أساسي بمبدأ "لا فائدة من القمامة، لا فائدة منها". حتى الخوارزميات الأكثر تقدماً لا يمكنها تعلم
أنماطًا فعالة من المدخلات الصاخبة أو المصنفة بشكل غير صحيح. يفترض الذكاء الاصطناعي المرتكز على البيانات أنه بالنسبة للعديد من التطبيقات العملية
العملية، فإن بيانات التدريب هي المتغير الأكثر
المتغير الأكثر أهمية للنجاح. يؤكد هذا النهج على أن مجموعة بيانات أصغر وعالية الجودة غالبًا ما تعطي نتائج أفضل
نتائج أفضل من مجموعة بيانات ضخمة وصاخبة.
يجادل أنصار هذه الفلسفة، مثل أندرو نغ، بأن تركيز مجتمع الذكاء الاصطناعي
أن تركيز مجتمع الذكاء الاصطناعي يميل بشكل غير متناسب نحو الابتكار المتمحور حول النموذج. لبناء أنظمة قوية
يجب أن ينخرط المهندسون في عمليات تعلم نشطة
حيث يقومون بتحديد أنماط الفشل بشكل متكرر وتصحيحها من خلال تنقيح مجموعة البيانات. يتضمن هذا دقة
وضع علامات دقيقة على البيانات، وإزالة التكرارات، والتعامل مع
الحالات التي يجد النموذج صعوبة في classify.
التقنيات الرئيسية والتنفيذ
يتضمن تنفيذ استراتيجية تركز على البيانات العديد من العمليات التقنية المصممة لهندسة مجموعة البيانات لتحقيق أقصى قدر من
كثافة المعلومات واتساقها.
-
التنظيف المنهجي للبيانات: يتضمن ذلك اكتشاف الأخطاء في التعليقات التوضيحية وإصلاحها، مثل
تحديد المربعات المحدودة التي لا تشمل
أو تصحيح أخطاء عدم تطابق الفئات.
-
تعزيز البيانات: يستخدم المطورون
تقنيات زيادة البيانات لتوسيع تنوع مجموعة البيانات بشكل مصطنع
توسيع تنوع مجموعة البيانات بشكل مصطنع. من خلال تطبيق تحويلات مثل التدوير والقياس وتعديل الألوان، يتعلم النموذج
يتعلم النموذج التعميم بشكل أفضل على البيئات غير المرئية.
-
توليد البيانات الاصطناعية: عندما تكون بيانات العالم الحقيقي نادرة، قد تقوم الفرق بتوليد
بيانات اصطناعية لسد الثغرات في مجموعة البيانات,
لضمان تمثيل الفئات النادرة بشكل كافٍ.
-
تحليل الأخطاء: بدلاً من النظر فقط إلى المقاييس الإجمالية مثل
الدقة، يقوم المهندسون بتحليل حالات محددة يفشل فيها
يفشل فيها النموذج ويجمعون البيانات المستهدفة لمعالجة نقاط الضعف المحددة تلك.
يوضّح كود Python التالي كيفية تطبيق تقنيات التعزيز المتمحور حول البيانات أثناء التدريب باستخدام
ultralytics الحزمة.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
تطبيقات واقعية
يعد اعتماد نهج يركز على البيانات أمرًا بالغ الأهمية في الصناعات التي تكون فيها
تكون دقة الرؤية الحاسوبية
غير قابلة للتفاوض.
-
الزراعة الدقيقة: في
الذكاء الاصطناعي في الزراعة، يعتمد التمييز بين
بين المحاصيل السليمة والمحاصيل المصابة بأمراض في مراحلها المبكرة غالبًا ما يعتمد على إشارات بصرية دقيقة. سيركز الفريق الذي يركز على البيانات على
تنسيق
مجموعة بيانات عالية الجودة للرؤية الحاسوبية
التي تتضمن على وجه التحديد أمثلة على الأمراض في ظروف الإضاءة ومراحل النمو المختلفة، مما يضمن أن النموذج
ألا يتعلم النموذج ربط سمات خلفية غير ذات صلة بفئة المرض.
-
التفتيش الصناعي: بالنسبة لـ
الذكاء الاصطناعي في التصنيع، قد تحدث العيوب
مرة واحدة فقط في كل عشرة آلاف وحدة. قد تتجاهل عملية تدريب النموذج القياسي هذه الأحداث النادرة. من خلال توظيف
استراتيجيات الكشف عن الشذوذ و
أو توليف المزيد من الصور لهذه العيوب المحددة يدويًا، يضمن المهندسون أن يحقق النظام معدلات الاستدعاء العالية
معدلات الاستدعاء العالية المطلوبة لمعايير مراقبة الجودة
التي تحددها منظمات مثل ISO.
التمييز بين المفاهيم ذات الصلة
يتطلب فهم الذكاء الاصطناعي المرتكز على البيانات تمييزه عن المصطلحات المماثلة في منظومة التعلم الآلي.
-
الذكاء الاصطناعي المتمحور حول النموذج: هذا هو النهج العكسي، حيث يتم الاحتفاظ بمجموعة البيانات ثابتة، ويتم البحث عن
ويتم البحث عن التحسينات من خلال
ضبط المعلمة الفائقة أو التغييرات
أو التغييرات المعمارية. في حين أنه ضروري لتخطي الحدود الحديثة في الأوراق البحثية الموجودة على
IEEE Xplore، إلا أنه غالبًا ما يؤدي إلى عوائد متناقصة في
الإنتاج مقارنةً بتنظيف البيانات.
-
البيانات الضخمة: تشير البيانات الضخمة في المقام الأول إلى
حجم وسرعة وتنوع المعلومات. لا يتطلب الذكاء الاصطناعي المرتكز على البيانات بالضرورة بيانات "كبيرة";
بل يتطلب بيانات "ذكية". غالبًا ما تتفوق مجموعة البيانات الصغيرة المصنفة بشكل مثالي على مجموعة البيانات الضخمة الصاخبة
الضخمة.
-
التحليل الاستكشافي للبيانات (EDA):
تصوير البيانات والتحليل الاستكشافي للبيانات هما خطوتان
ضمن سير العمل المتمحور حول البيانات. يساعد التحليل الاستكشافي للبيانات الاستكشافية في تحديد التناقضات، لكن الذكاء الاصطناعي المرتكز على البيانات يشمل
دورة الحياة الهندسية بأكملها لإصلاح تلك المشكلات لتحسين
محرك الاستدلال.
-
عمليات التعلُّم الآلي (MLOps)
عمليات التعلم الآلي (MLOps)
توفر البنية التحتية وخطوط الأنابيب لإدارة دورة حياة إنتاج الذكاء الاصطناعي. الذكاء الاصطناعي المرتكز على البيانات
المنهجية المطبقة داخل خطوط أنابيب عمليات التعلم الآلي لضمان أن البيانات المتدفقة من خلالها تخلق نماذج موثوقة.