زيادة البيانات
عزز نماذج تعلم الآلة الخاصة بك باستخدام زيادة البيانات. اكتشف تقنيات لزيادة الدقة وتقليل التجاوز وتحسين المتانة.
توسيع البيانات هو أسلوب حاسم في تعلم الآلة (ML) يستخدم لزيادة حجم وتنوع مجموعة بيانات التدريب بشكل مصطنع. ويتحقق ذلك من خلال إنشاء نسخ معدلة، ولكنها واقعية، من عينات البيانات الموجودة. الهدف الأساسي هو تحسين أداء وقوة نماذج الذكاء الاصطناعي، خاصة في رؤية الحاسوب (CV)، من خلال تعريضها لمجموعة واسعة من الظروف أثناء التدريب. يساعد هذا في منع التدريب الزائد، حيث يتعلم النموذج بيانات التدريب جيدًا ولكنه يفشل في التعميم على بيانات جديدة غير مرئية، مما يؤدي في النهاية إلى زيادة دقة النموذج.
كيف يعمل تضخيم البيانات (Data Augmentation)؟
في الرؤية الحاسوبية، يتضمن تaugment البيانات تطبيق سلسلة من التحويلات على الصور. تم تصميم هذه التحويلات لمحاكاة الاختلافات الواقعية التي قد يواجهها النموذج بعد النشر. تتضمن التقنيات الشائعة ما يلي:
- التحويلات الهندسية: تعمل هذه التحويلات على تغيير الاتجاه المكاني للصورة. تتضمن الأمثلة التدويرات العشوائية والتحجيم والترجمات (الإزاحة) والاقتصاص والقلب (أفقيًا أو رأسيًا). تعلم هذه التحويلات النموذج أن يكون ثابتًا بالنسبة لموضع الكائن واتجاهه.
- تحويلات مساحة الألوان: تعمل هذه التحويلات على تعديل خصائص لون الصورة. وتجعل تعديلات السطوع والتباين والتشبع واللون النموذج أكثر مرونة للتغيرات في ظروف الإضاءة.
- تقنيات متقدمة (Advanced Techniques): تتضمن الطرق الأكثر تعقيدًا تغيير محتوى الصورة بشكل كبير. يمكن أن يشمل ذلك إضافة ضوضاء عشوائية (مثل ضوضاء جاوس)، أو تطبيق تأثيرات ضبابية، أو استخدام طرق مثل Mixup، التي تنشئ صورًا جديدة عن طريق الجمع الخطي بين صورتين موجودتين، و Cutout، التي تزيل عشوائيًا مناطق من الصورة. يمكنك معرفة المزيد حول هذه الطرق في الدليل النهائي لزيادة البيانات (The Ultimate Guide to Data Augmentation).
توفر العديد من أطر عمل التعلم العميق، مثل PyTorch و TensorFlow، أدوات لزيادة البيانات. تقدم المكتبات المتخصصة مثل Albumentations مجموعة واسعة من تقنيات الزيادة عالية الأداء ويتم دمجها مع نماذج مثل Ultralytics YOLO11 لـ تنويع بيانات التدريب بسلاسة.
تطبيقات واقعية
توسيع البيانات ممارسة قياسية عبر العديد من المجالات لبناء أنظمة ذكاء اصطناعي أكثر موثوقية.
- الذكاء الاصطناعي في الرعاية الصحية: في تحليل الصور الطبية، غالبًا ما تكون مجموعات البيانات صغيرة بسبب لوائح خصوصية المرضى وندرة بعض الأمراض. لتدريب نموذج لاكتشاف الأورام في الفحوصات، تخلق تقنيات الزيادة مثل التدوير والتحجيم وتغييرات السطوع مجموعة أكثر تنوعًا من أمثلة التدريب. يساعد هذا النموذج على تحديد الحالات الشاذة بدقة بغض النظر عن الاختلافات في معدات التصوير أو وضع المريض، مما يحسن الموثوقية التشخيصية.
- الذكاء الاصطناعي للسيارات: يتطلب تطوير أنظمة اكتشاف الكائنات قوية لـ المركبات ذاتية القيادة بيانات من عدد لا يحصى من سيناريوهات القيادة. بدلاً من جمع البيانات لكل حالة ممكنة، يمكن للزيادة أن تحاكي أحوالًا جوية مختلفة (مثل إضافة المطر أو الثلج الاصطناعي)، والإضاءة (النهار، الغسق، الليل)، والانسدادات (مثل مشاة يختبئون جزئيًا خلف سيارة أخرى). وهذا يجعل نظام إدراك السيارة أكثر موثوقية في البيئات الواقعية غير المتوقعة.
تشمل التطبيقات الهامة الأخرى الذكاء الاصطناعي في التصنيع لمراقبة الجودة و الذكاء الاصطناعي في الزراعة للكشف عن أمراض المحاصيل في ظل ظروف ميدانية متفاوتة.
توسيع البيانات مقابل المفاهيم ذات الصلة
من المهم التمييز بين زيادة البيانات والتقنيات الأخرى المتعلقة بالبيانات.
- البيانات الاصطناعية: في حين أن كلتا الطريقتين تعززان مجموعات البيانات، إلا أنهما تعملان بشكل مختلف. تعمل زيادة البيانات على تعديل البيانات الحقيقية الموجودة. في المقابل، يقوم إنشاء البيانات الاصطناعية بإنشاء بيانات اصطناعية جديدة تمامًا من البداية باستخدام عمليات المحاكاة أو نماذج توليدية مثل GANs. في حين أن الزيادة توسع التباين حول البيانات المرصودة، يمكن للبيانات الاصطناعية إنشاء سيناريوهات جديدة غير موجودة في مجموعة البيانات الأصلية، وهو مفهوم تم استكشافه في هذه نظرة عامة على البيانات الاصطناعية في الرؤية الحاسوبية.
- تنظيف البيانات: تنظيف البيانات هو جزء من خط أنابيب المعالجة المسبقة للبيانات الأوسع الذي يركز على تحديد وتصحيح الأخطاء والتناقضات وعدم الدقة في مجموعة البيانات. هدفها هو تحسين جودة البيانات. من ناحية أخرى، تدور زيادة البيانات حول زيادة كمية البيانات وتنوعها. مجموعة البيانات النظيفة هي نقطة البداية المثالية قبل تطبيق الزيادة.
- التعلم بالنقل (Transfer Learning): تتضمن هذه التقنية استخدام نموذج مدرب مسبقًا على مجموعة بيانات مرجعية كبيرة مثل ImageNet ثم ضبطه بدقة على مجموعة بيانات أصغر خاصة بالمهمة. غالبًا ما تستخدم زيادة البيانات خلال مرحلة الضبط الدقيق لزيادة تحسين الأداء ومنع التجاوز على البيانات الجديدة.
تعمل منصات مثل Ultralytics HUB على تبسيط عملية تدريب النموذج بأكملها، ودمج زيادة البيانات كخطوة أساسية لمساعدة المستخدمين على بناء نماذج رؤية اصطناعية قوية وحديثة.