اكتشف أهمية بيانات التدريب في الذكاء الاصطناعي. تعلّم كيف تعمل مجموعات البيانات عالية الجودة على تشغيل نماذج تعلّم آلي دقيقة وقوية لمهام العالم الحقيقي.
في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) والتعلم الآلي (ML)، بيانات التدريب هي مجموعة البيانات الأساسية المستخدمة لتعليم النماذج كيفية أداء مهام محددة، مثل التصنيف أو التنبؤ. وهي تتألف من مجموعة كبيرة من الأمثلة، حيث يقوم كل مثال عادةً بإقران أحد المدخلات بمخرج أو تسمية مطابقة مرغوبة. من خلال عمليات مثل التعلّم الخاضع للإشراف، يقوم النموذج بتحليل هذه البيانات، ويحدد الأنماط والعلاقات الأساسية، ويضبط معلماته الداخلية(أوزان النموذج) لتعلم التعيين من المدخلات إلى المخرجات. يمكّن هذا التعلّم النموذج من إجراء تنبؤات أو قرارات دقيقة عند تقديم بيانات جديدة لم يسبق رؤيتها.
فكر في بيانات التدريب على أنها الكتاب المدرسي والتدريبات العملية لنموذج الذكاء الاصطناعي. إنها مجموعة منسقة بعناية من المعلومات المنسقة خصيصًا لتكون بمثابة أمثلة أثناء مرحلة التعلم. على سبيل المثال، في مهام الرؤية الحاسوبية (CV) مثل اكتشاف الأجسام، تتكون بيانات التدريب من صور أو إطارات فيديو ( ميزات الإدخال) مقترنة بالتسميات التوضيحية (التسميات) التي تحدد موقع(المربعات المحدودة) وفئة الأجسام داخل تلك الصور. يُعد إنشاء هذه التسميات خطوة حاسمة تُعرف باسم تسمية البيانات. يعالج النموذج هذه البيانات بشكل متكرر، ويقارن تنبؤاته بالتسميات الحقيقية ويضبط معلماته باستخدام تقنيات مثل التكاثر العكسي ونسب التدرج لتقليل الخطأ أو دالة الخسارة.
يرتبط أداء وموثوقية نموذج الذكاء الاصطناعي ارتباطًا مباشرًا بجودة وكمية وتنوع بيانات التدريب الخاصة به. تُعد البيانات التمثيلية عالية الجودة ضرورية لبناء نماذج تحقق دقة عالية وتعميمها بشكل جيد على سيناريوهات العالم الحقيقي(التعميم في التعلم الآلي). وعلى العكس من ذلك، يمكن أن تؤدي بيانات التدريب غير الكافية أو المشوشة أو المتحيزة إلى مشاكل كبيرة مثل الأداء الضعيف أو الإفراط في التخصيص (حيث يكون أداء النموذج جيدًا على بيانات التدريب ولكن أداءه ضعيف على البيانات الجديدة)، أو نتائج غير عادلة وتمييزية بسبب التحيز المتأصل في مجموعة البيانات. تُعد معالجة التحيز جانبًا أساسيًا من جوانب أخلاقيات الذكاء الاصطناعي. ولذلك، فإن جمع البيانات الدقيقة والتعليق عليها وإعدادها هي مراحل حاسمة في تطوير أنظمة ذكاء اصطناعي ناجحة.
بيانات التدريب هي وقود عدد لا يحصى من تطبيقات الذكاء الاصطناعي في مختلف المجالات. فيما يلي مثالان:
إن ضمان الجودة العالية لبيانات التدريب أمر بالغ الأهمية ويتضمن عدة خطوات رئيسية. يعالج تنظيف البيانات (ويكيبيديا) الأخطاء والتناقضات والقيم المفقودة. تقوم المعالجة المسبقة للبي انات بتحويل البيانات الأولية إلى تنسيق مناسب للنموذج. تقنيات مثل توسيع مجموعة البيانات بشكل مصطنع من خلال إنشاء نسخ معدّلة من البيانات الموجودة (مثل تدوير أو اقتصاص الصور)، مما يساعد على تحسين متانة النموذج وتقليل الإفراط في تركيبها. من المهم أيضًا فهم بياناتك من خلال الاستكشاف، كما تسهّل ذلك أدوات مثل مستكشف بياناتUltralytics Datasets Explorer، قبل بدء عملية التدريب.
في مشروع التعلم الآلي النموذجي، يتم تقسيم البيانات إلى ثلاث مجموعات مختلفة:
يعد الحفاظ على فصل صارم بين مجموعات البيانات هذه أمراً ضرورياً لتطوير نماذج موثوقة وتقييم قدراتها بدقة. تقدم منصات مثل Ultralytics HUB أدوات لإدارة مجموعات البيانات هذه بفعالية طوال دورة حياة تطوير النموذج. النماذج الحديثة مثل Ultralytics YOLO غالبًا ما يتم تدريبها مسبقًا على مجموعات بيانات معيارية كبيرة مثل COCO أو ImageNet، والتي تُستخدم كبيانات تدريب واسعة النطاق.