يولو فيجن شنتشن
شنتشن
انضم الآن

أهمية مجموعات بيانات رؤية حاسوبية عالية الجودة

أبيرامي فينا

4 دقائق قراءة

16 ديسمبر 2024

انضم إلينا ونحن نستكشف الحاجة إلى بيانات عالية الجودة عند بناء نماذج الرؤية الحاسوبية. اكتشف كيف يمكن أن تؤثر جودة البيانات على أداء النموذج.

اعتبارًا من عام 2019، زاد اعتماد المؤسسات على الذكاء الاصطناعي (AI) بنسبة 270٪ خلال السنوات الأربع السابقة. وقد غذى هذا النمو التكامل السريع لتطبيقات رؤية الكمبيوتر (CV) - أنظمة الذكاء الاصطناعي التي تمكن الآلات من تفسير وتحليل البيانات المرئية من العالم من حولها. تدعم هذه التطبيقات مجموعة واسعة من التقنيات، بدءًا من الكشف عن الأمراض في التصوير الطبي وتمكين المركبات ذاتية القيادة وصولًا إلى تحسين تدفق حركة المرور في النقل وتعزيز المراقبة في الأنظمة الأمنية. 

إن الدقة الملحوظة والأداء الذي لا يضاهى لـ نماذج الرؤية الحاسوبية المتطورة مثل Ultralytics YOLO11 قد دفعا إلى حد كبير هذا النمو الهائل. ومع ذلك، يعتمد أداء هذه النماذج بشكل كبير على جودة وكمية البيانات المستخدمة لتدريب النماذج والتحقق من صحتها واختبارها. 

بدون بيانات عالية الجودة وكافية، قد يكون من الصعب تدريب وضبط نماذج الرؤية الحاسوبية بفعالية لتلبية معايير الصناعة. في هذه المقالة، سوف نستكشف الدور الحيوي للبيانات في إنشاء نماذج الرؤية الحاسوبية وسبب أهمية البيانات عالية الجودة في الرؤية الحاسوبية. سنستعرض أيضًا بعض النصائح لمساعدتك في إنشاء مجموعات بيانات عالية الجودة أثناء العمل على تدريب نماذج رؤية حاسوبية مخصصة. هيا بنا نبدأ!

دور البيانات في بناء نماذج رؤية الحاسوب

يمكن تدريب نماذج الرؤية الحاسوبية على مجموعات بيانات كبيرة من الصور ومقاطع الفيديو للتعرف على الأنماط وتقديم تنبؤات دقيقة. على سبيل المثال، يمكن تدريب نموذج اكتشاف الكائنات على مئات - أو حتى آلاف - الصور ومقاطع الفيديو المصنفة لتحديد الكائنات بدقة. 

تؤثر جودة وكمية بيانات التدريب هذه على أداء النموذج

نظرًا لأن نماذج رؤية الكمبيوتر يمكنها فقط التعلم من البيانات التي تتعرض لها، فإن توفير بيانات عالية الجودة وأمثلة متنوعة أمر بالغ الأهمية لنجاحها. بدون مجموعات بيانات كافية ومتنوعة، قد تفشل هذه النماذج في تحليل سيناريوهات العالم الحقيقي بدقة وقد تنتج نتائج متحيزة أو غير دقيقة. 

لهذا السبب من المهم فهم دور البيانات في تدريب النموذج بوضوح. قبل أن نتناول خصائص البيانات عالية الجودة، دعنا نفهم أنواع مجموعات البيانات التي قد تواجهها أثناء تدريب نماذج رؤية الكمبيوتر.

أنواع مجموعات بيانات رؤية الحاسوب

في الرؤية الحاسوبية، يتم تصنيف البيانات المستخدمة في عملية التدريب إلى ثلاثة أنواع، يخدم كل منها غرضًا محددًا. إليك نظرة سريعة على كل نوع:

  • بيانات التدريب: هذه هي مجموعة البيانات الأساسية المستخدمة لتدريب النموذج من البداية. وهي تتكون من صور ومقاطع فيديو مع تصنيفات محددة مسبقًا، مما يسمح للنموذج بتعلم الأنماط والتعرف على الكائنات.
  • بيانات التحقق: هذه مجموعة من البيانات تستخدم للتحقق من مدى جودة أداء النموذج أثناء تدريبه. يساعد على ضمان عمل النموذج بشكل صحيح على بيانات جديدة وغير مرئية.
  • بيانات الاختبار: مجموعة منفصلة من البيانات تُستخدم لتقييم الأداء النهائي للنموذج المدرب. تتحقق من مدى قدرة النموذج على إجراء تنبؤات على بيانات جديدة تمامًا وغير مرئية.
__wf_reserved_inherit
الشكل 1. كيفية تصنيف البيانات في رؤية الكمبيوتر.

أهم 5 سمات لمجموعات بيانات رؤية الكمبيوتر عالية الجودة

بغض النظر عن نوع مجموعة البيانات، فإن البيانات عالية الجودة ضرورية لبناء نماذج رؤية حاسوبية ناجحة. فيما يلي بعض الخصائص الرئيسية التي تجعل مجموعة البيانات عالية الجودة:

  • الدقة: من الناحية المثالية، يجب أن تعكس البيانات عن كثب مواقف العالم الحقيقي وأن تتضمن تسميات صحيحة. على سبيل المثال، عندما يتعلق الأمر بـ الرؤية الاصطناعية في الرعاية الصحية، يجب تسمية صور الأشعة السينية أو الفحوصات بدقة لمساعدة النموذج على التعلم بشكل صحيح.
  • التنوع: تتضمن مجموعة البيانات الجيدة مجموعة متنوعة من الأمثلة لمساعدة النموذج على الأداء الجيد في المواقف المختلفة. على سبيل المثال، إذا كان النموذج يتعلم اكتشاف السيارات، فيجب أن تتضمن مجموعة البيانات سيارات بأشكال وأحجام وألوان مختلفة في إعدادات متنوعة (نهارًا، ليلاً، ممطر، إلخ).
  • الاتساق: تتبع مجموعات البيانات عالية الجودة تنسيقًا موحدًا ومعايير جودة. على سبيل المثال، يجب أن يكون للصور دقة مماثلة (لا تكون بعضها ضبابية والبعض الآخر حادًا) وأن تمر بنفس خطوات المعالجة المسبقة، مثل تغيير الحجم أو تعديلات الألوان، حتى يتعلم النموذج من معلومات متسقة.
  • حسن التوقيت: مجموعات البيانات التي يتم تحديثها بانتظام يمكن أن تواكب التغيرات في العالم الحقيقي. لنفترض أنك تقوم بتدريب نموذج لاكتشاف جميع أنواع المركبات. إذا تم تقديم مركبات جديدة، مثل الدراجات البخارية الكهربائية، فيجب إضافتها إلى مجموعة البيانات للتأكد من أن النموذج يظل دقيقًا وحديثًا.
  • الخصوصية: إذا كانت مجموعة البيانات تتضمن معلومات حساسة، مثل صور الأشخاص، فيجب أن تتبع قواعد الخصوصية. يمكن لتقنيات مثل إخفاء الهوية (إزالة التفاصيل التعريفية) وإخفاء البيانات (إخفاء الأجزاء الحساسة) حماية الخصوصية مع الاستمرار في إمكانية استخدام البيانات بشكل آمن.

التحديات الناجمة عن البيانات منخفضة الجودة

في حين أن فهم سمات البيانات عالية الجودة أمر مهم، فمن الأهمية بمكان أيضًا مراعاة كيف يمكن للبيانات منخفضة الجودة أن تؤثر على نماذج الرؤية الحاسوبية الخاصة بك.

يمكن أن تؤثر مشكلات مثل التجهيز الزائد والنقص في التجهيز بشدة على أداء النموذج. يحدث التجهيز الزائد عندما يكون أداء النموذج جيدًا على بيانات التدريب ولكنه يعاني مع البيانات الجديدة أو غير المرئية، غالبًا لأن مجموعة البيانات تفتقر إلى التنوع. من ناحية أخرى، يحدث النقص في التجهيز عندما لا توفر مجموعة البيانات أمثلة كافية أو جودة كافية للنموذج لتعلم أنماط ذات مغزى. لتجنب هذه المشاكل، من الضروري الحفاظ على مجموعات بيانات متنوعة وغير متحيزة وعالية الجودة، مما يضمن أداءً موثوقًا به في كل من التدريب والتطبيقات الواقعية.

__wf_reserved_inherit
الشكل 2. التقليل مقابل المبالغة في التوفيق.

يمكن أن تجعل البيانات منخفضة الجودة من الصعب أيضًا على النماذج استخلاص وتعلم أنماط ذات معنى من البيانات الأولية، وهي عملية تعرف باسم استخلاص الميزات (feature extraction). إذا كانت مجموعة البيانات غير كاملة أو غير ذات صلة أو تفتقر إلى التنوع، فقد يكافح النموذج لتحقيق أداء فعال. 

في بعض الأحيان، يمكن أن تكون البيانات منخفضة الجودة نتيجة لتبسيط البيانات. يمكن أن يساعد تبسيط البيانات في توفير مساحة التخزين وتقليل تكاليف المعالجة، ولكن الإفراط في التبسيط يمكن أن يزيل التفاصيل المهمة التي يحتاجها النموذج ليعمل بشكل جيد. هذا هو السبب في أنه من المهم جدًا الحفاظ على بيانات عالية الجودة طوال عملية رؤية الكمبيوتر بأكملها، من التجميع إلى النشر. كقاعدة عامة، يجب أن تتضمن مجموعات البيانات ميزات أساسية مع الحفاظ على تنوعها ودقتها لضمان تنبؤات نموذجية موثوقة.

__wf_reserved_inherit
الشكل 3. فهم استخلاص الميزات.

نصائح للحفاظ على جودة مجموعة بيانات رؤية الكمبيوتر الخاصة بك

الآن بعد أن فهمنا أهمية البيانات عالية الجودة وتأثير البيانات منخفضة الجودة، دعنا نستكشف كيف نتأكد من أن مجموعة البيانات الخاصة بك تفي بالمعايير العالية.

يبدأ كل شيء بجمع بيانات موثوقة. إن استخدام مصادر متنوعة مثل التعهيد الجماعي والبيانات من مناطق جغرافية متنوعة وتوليد البيانات الاصطناعية يقلل من التحيز ويساعد النماذج على التعامل مع السيناريوهات الواقعية. بمجرد جمع البيانات، تصبح المعالجة المسبقة أمرًا بالغ الأهمية. تعمل تقنيات مثل التسوية، التي تعمل على توسيع نطاق قيم البكسل إلى نطاق ثابت، والزيادة، التي تطبق تحويلات مثل التدوير والقلب والتكبير، على تحسين مجموعة البيانات. تساعد هذه الخطوات النموذج الخاص بك على التعميم بشكل أفضل ويصبح أكثر قوة، مما يقلل من خطر التجهيز الزائد.

يعد تقسيم مجموعات البيانات بشكل صحيح خطوة رئيسية أخرى. يتمثل أحد الأساليب الشائعة في تخصيص 70٪ من البيانات للتدريب و 15٪ للتحقق و 15٪ للاختبار. يمنع التحقق المزدوج من عدم وجود تداخل بين هذه المجموعات تسرب البيانات ويضمن تقييمًا دقيقًا للنموذج.

__wf_reserved_inherit
الشكل 4. تقسيم شائع للبيانات بين التدريب والتحقق والاختبار.

يمكنك أيضًا استخدام نماذج مُدرَّبة مسبقًا مثل YOLO11 لتوفير الوقت والموارد الحسابية. يمكن تعديل YOLO11، الذي تم تدريبه على مجموعات بيانات كبيرة ومصمم لمختلف مهام رؤية الكمبيوتر، على مجموعة البيانات الخاصة بك لتلبية احتياجاتك. من خلال تعديل النموذج ليتناسب مع بياناتك، يمكنك تجنب التجاوز (overfitting) والحفاظ على أداء قوي. 

المسار المستقبلي لمجموعات بيانات الرؤية الحاسوبية

ركز مجتمع الذكاء الاصطناعي تقليديًا على تحسين الأداء من خلال بناء نماذج أعمق مع المزيد من الطبقات. ومع ذلك، مع استمرار تطور الذكاء الاصطناعي، يتحول التركيز من تحسين النماذج إلى تحسين جودة مجموعات البيانات. يعتقد أندرو نج، الذي يشار إليه غالبًا باسم "أبو الذكاء الاصطناعي"، أن "أهم تحول يحتاج عالم الذكاء الاصطناعي إلى المرور به في هذا العقد سيكون تحولًا إلى الذكاء الاصطناعي المرتكز على البيانات." 

يؤكد هذا النهج على تحسين مجموعات البيانات من خلال تحسين دقة التصنيف وإزالة الأمثلة المشوشة وضمان التنوع. بالنسبة للرؤية الحاسوبية، تعتبر هذه المبادئ ضرورية لمعالجة مشكلات مثل التحيز والبيانات منخفضة الجودة، مما يمكّن النماذج من الأداء بشكل موثوق في سيناريوهات العالم الحقيقي.

بالنظر إلى المستقبل، سيعتمد تقدم الرؤية الحاسوبية على إنشاء مجموعات بيانات أصغر وعالية الجودة بدلاً من جمع كميات هائلة من البيانات. وفقًا لأندرو نج، "تحسين البيانات ليس خطوة معالجة مسبقة لمرة واحدة؛ إنه جزء أساسي من العملية التكرارية لتطوير نموذج التعلم الآلي." من خلال التركيز على المبادئ التي تركز على البيانات، ستستمر الرؤية الحاسوبية في أن تصبح أكثر سهولة وكفاءة وتأثيرًا عبر مختلف الصناعات.

النقاط الرئيسية

تلعب البيانات دورًا حاسمًا طوال دورة حياة نموذج الرؤية. بدءًا من جمع البيانات ومعالجتها المسبقة، والتدريب، والتحقق، والاختبار، تؤثر جودة البيانات بشكل مباشر على أداء النموذج وموثوقيته. من خلال إعطاء الأولوية للبيانات عالية الجودة والتصنيف الدقيق، يمكننا بناء نماذج رؤية حاسوبية قوية تقدم نتائج موثوقة ودقيقة. 

بينما نتحرك نحو مستقبل يعتمد على البيانات، من الضروري معالجة الاعتبارات الأخلاقية للتخفيف من المخاطر المتعلقة بالتحيز ولوائح الخصوصية. في النهاية، يعد ضمان سلامة وعدالة البيانات أمرًا أساسيًا لإطلاق الإمكانات الكاملة لتقنيات الرؤية الحاسوبية.

انضم إلى مجتمعنا وتحقق من مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. تحقق من صفحات الحلول الخاصة بنا لاستكشاف المزيد من تطبيقات الذكاء الاصطناعي في قطاعات مثل الزراعة و التصنيع.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة