مسرد المصطلحات

بيانات التدريب

اكتشف أهمية بيانات التدريب في الذكاء الاصطناعي. تعلّم كيف تعمل مجموعات البيانات عالية الجودة على تشغيل نماذج تعلّم آلي دقيقة وقوية لمهام العالم الحقيقي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) والتعلم الآلي (ML)، بيانات التدريب هي مجموعة البيانات الأساسية المستخدمة لتعليم النماذج كيفية أداء مهام محددة، مثل التصنيف أو التنبؤ. وهي تتألف من مجموعة كبيرة من الأمثلة، حيث يقوم كل مثال عادةً بإقران أحد المدخلات بمخرج أو تسمية مطابقة مرغوبة. من خلال عمليات مثل التعلّم الخاضع للإشراف، يقوم النموذج بتحليل هذه البيانات، ويحدد الأنماط والعلاقات الأساسية، ويضبط معلماته الداخلية(أوزان النموذج) لتعلم التعيين من المدخلات إلى المخرجات. يمكّن هذا التعلّم النموذج من إجراء تنبؤات أو قرارات دقيقة عند تقديم بيانات جديدة لم يسبق رؤيتها.

ما هي بيانات التدريب؟

فكر في بيانات التدريب على أنها الكتاب المدرسي والتدريبات العملية لنموذج الذكاء الاصطناعي. إنها مجموعة منسقة بعناية من المعلومات المنسقة خصيصًا لتكون بمثابة أمثلة أثناء مرحلة التعلم. على سبيل المثال، في مهام الرؤية الحاسوبية (CV) مثل اكتشاف الأجسام، تتكون بيانات التدريب من صور أو إطارات فيديو ( ميزات الإدخال) مقترنة بالتسميات التوضيحية (التسميات) التي تحدد موقع(المربعات المحدودة) وفئة الأجسام داخل تلك الصور. يُعد إنشاء هذه التسميات خطوة حاسمة تُعرف باسم تسمية البيانات. يعالج النموذج هذه البيانات بشكل متكرر، ويقارن تنبؤاته بالتسميات الحقيقية ويضبط معلماته باستخدام تقنيات مثل التكاثر العكسي ونسب التدرج لتقليل الخطأ أو دالة الخسارة.

أهمية بيانات التدريب

يرتبط أداء وموثوقية نموذج الذكاء الاصطناعي ارتباطًا مباشرًا بجودة وكمية وتنوع بيانات التدريب الخاصة به. تُعد البيانات التمثيلية عالية الجودة ضرورية لبناء نماذج تحقق دقة عالية وتعميمها بشكل جيد على سيناريوهات العالم الحقيقي(التعميم في التعلم الآلي). وعلى العكس من ذلك، يمكن أن تؤدي بيانات التدريب غير الكافية أو المشوشة أو المتحيزة إلى مشاكل كبيرة مثل الأداء الضعيف أو الإفراط في التخصيص (حيث يكون أداء النموذج جيدًا على بيانات التدريب ولكن أداءه ضعيف على البيانات الجديدة)، أو نتائج غير عادلة وتمييزية بسبب التحيز المتأصل في مجموعة البيانات. تُعد معالجة التحيز جانبًا أساسيًا من جوانب أخلاقيات الذكاء الاصطناعي. ولذلك، فإن جمع البيانات الدقيقة والتعليق عليها وإعدادها هي مراحل حاسمة في تطوير أنظمة ذكاء اصطناعي ناجحة.

أمثلة على بيانات التدريب في تطبيقات العالم الحقيقي

بيانات التدريب هي وقود عدد لا يحصى من تطبيقات الذكاء الاصطناعي في مختلف المجالات. فيما يلي مثالان:

  1. السيارات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على بيانات التدريب لأنظمة الإدراك. وتتضمن هذه البيانات كميات هائلة من اللقطات من الكاميرات وأجهزة استشعار الليدار والرادار التي تم تصنيفها بدقة مع أشياء مثل المركبات الأخرى والمشاة وراكبي الدراجات وإشارات المرور وعلامات الحارات. يتم تدريب النماذج مثل تلك المستخدمة في تقنية Waymo على مجموعات بيانات مثل Argoverse لتعلم كيفية التنقل في البيئات المعقدة بأمان. استكشف الذكاء الاصطناعي في حلول السيارات لمزيد من التفاصيل.
  2. تحليل المشاعر: في معالجة اللغات الطبيعية (NLP)، تحدد نماذج تحليل المشاعر النبرة العاطفية الكامنة وراء النص. تتكون بيانات التدريب من عينات نصية (على سبيل المثال، مراجعات العملاء ومنشورات وسائل التواصل الاجتماعي) مصنفة بمشاعر مثل "إيجابي" أو "سلبي" أو "محايد"(تحليل المشاعر - ويكيبيديا). يتيح ذلك للشركات قياس الرأي العام أو رضا العملاء تلقائيًا.

جودة البيانات وإعدادها

إن ضمان الجودة العالية لبيانات التدريب أمر بالغ الأهمية ويتضمن عدة خطوات رئيسية. يعالج تنظيف البيانات (ويكيبيديا) الأخطاء والتناقضات والقيم المفقودة. تقوم المعالجة المسبقة للبي انات بتحويل البيانات الأولية إلى تنسيق مناسب للنموذج. تقنيات مثل توسيع مجموعة البيانات بشكل مصطنع من خلال إنشاء نسخ معدّلة من البيانات الموجودة (مثل تدوير أو اقتصاص الصور)، مما يساعد على تحسين متانة النموذج وتقليل الإفراط في تركيبها. من المهم أيضًا فهم بياناتك من خلال الاستكشاف، كما تسهّل ذلك أدوات مثل مستكشف بياناتUltralytics Datasets Explorer، قبل بدء عملية التدريب.

بيانات التدريب مقابل بيانات التحقق من الصحة وبيانات الاختبار

في مشروع التعلم الآلي النموذجي، يتم تقسيم البيانات إلى ثلاث مجموعات مختلفة:

يعد الحفاظ على فصل صارم بين مجموعات البيانات هذه أمراً ضرورياً لتطوير نماذج موثوقة وتقييم قدراتها بدقة. تقدم منصات مثل Ultralytics HUB أدوات لإدارة مجموعات البيانات هذه بفعالية طوال دورة حياة تطوير النموذج. النماذج الحديثة مثل Ultralytics YOLO غالبًا ما يتم تدريبها مسبقًا على مجموعات بيانات معيارية كبيرة مثل COCO أو ImageNet، والتي تُستخدم كبيانات تدريب واسعة النطاق.

قراءة الكل