الذكاء الاصطناعي المرئي

أهمية مجموعات بيانات الرؤية الحاسوبية عالية الجودة

انضم إلينا بينما نستكشف الحاجة إلى بيانات عالية الجودة عند بناء نماذج الرؤية الحاسوبية. اكتشف كيف يمكن أن تؤثر جودة البيانات على أداء النموذج.

أبأبيرامي فينا

4 min readDecember 16, 2024

أهمية مجموعات بيانات الرؤية الحاسوبية عالية الجودة

اعتباراً من عام 2019، شهد تبني الذكاء الاصطناعي (AI) في المؤسسات زيادة بنسبة 270% خلال السنوات الأربع السابقة. وقد ساهم هذا النمو في تسريع وتيرة دمج تطبيقات الرؤية الحاسوبية (CV) - وهي أنظمة ذكاء اصطناعي تُمكّن الآلات من تفسير وتحليل البيانات البصرية من العالم المحيط بها. وتدعم هذه التطبيقات مجموعة واسعة من التقنيات، بدءاً من اكتشاف الأمراض في التصوير الطبي وتمكين المركبات ذاتية القيادة، وصولاً إلى تحسين تدفق حركة المرور في النقل وتعزيز المراقبة في أنظمة الأمن.

لقد أدى الدقة الملحوظة والأداء غير المسبوق لنماذج الرؤية الحاسوبية المتطورة مثل Ultralytics YOLO11 إلى دفع هذا النمو الأسي إلى حد كبير. ومع ذلك، يعتمد أداء هذه النماذج بشكل كبير على جودة وكمية البيانات المستخدمة في تدريب النماذج والتحقق منها واختبارها.

بدون بيانات كافية وعالية الجودة، قد يصعب تدريب نماذج الرؤية الحاسوبية وضبطها بدقة لتلبية معايير الصناعة. في هذا المقال، سنستكشف الدور الحيوي للبيانات في إنشاء نماذج الرؤية الحاسوبية ولماذا تعتبر البيانات عالية الجودة مهمة جداً في الرؤية الحاسوبية. كما سنستعرض بعض النصائح لمساعدتك في إنشاء مجموعات بيانات عالية الجودة أثناء العمل على تدريب نماذج رؤية حاسوبية مخصصة. لنبدأ!

Link to this sectionدور البيانات في بناء نماذج الرؤية الحاسوبية#

يمكن تدريب نماذج الرؤية الحاسوبية على مجموعات بيانات ضخمة من الصور ومقاطع الفيديو للتعرف على الأنماط وإجراء تنبؤات دقيقة. على سبيل المثال، يمكن تدريب نموذج اكتشاف الأجسام على مئات - أو حتى آلاف - الصور ومقاطع الفيديو المصنفة لتحديد الأجسام بدقة.

تؤثر جودة وكمية بيانات التدريب هذه على أداء النموذج.

بما أن نماذج الرؤية الحاسوبية لا يمكنها التعلم إلا من البيانات التي تتعرض لها، فإن توفير بيانات عالية الجودة وأمثلة متنوعة أمر بالغ الأهمية لنجاحها. وبدون مجموعات بيانات كافية ومتنوعة، قد تفشل هذه النماذج في تحليل سيناريوهات العالم الحقيقي بدقة، وقد تنتج نتائج متحيزة أو غير دقيقة.

ولهذا السبب من المهم فهم دور البيانات في تدريب النماذج بوضوح. قبل أن نستعرض خصائص البيانات عالية الجودة، دعونا نفهم أنواع مجموعات البيانات التي قد تصادفها أثناء تدريب نماذج الرؤية الحاسوبية.

Link to this sectionأنواع مجموعات بيانات الرؤية الحاسوبية#

في الرؤية الحاسوبية، يتم تصنيف البيانات المستخدمة في عملية التدريب إلى ثلاثة أنواع، كل منها يخدم غرضاً محدداً. إليك نظرة سريعة على كل نوع:

بيانات التدريب: هي مجموعة البيانات الأساسية المستخدمة لتدريب النموذج من الصفر. تتكون من صور ومقاطع فيديو ذات تصنيفات محددة مسبقاً، مما يسمح للنموذج بتعلم الأنماط والتعرف على الأجسام.
بيانات التحقق: هي مجموعة من البيانات تُستخدم للتحقق من مدى جودة أداء النموذج أثناء تدريبه. وتساعد في التأكد من أن النموذج يعمل بشكل صحيح على بيانات جديدة وغير مرئية من قبل.
بيانات الاختبار: مجموعة منفصلة من البيانات تُستخدم لتقييم الأداء النهائي للنموذج المدرب. وهي تتحقق من مدى قدرة النموذج على إجراء تنبؤات على بيانات جديدة تماماً لم يسبق له رؤيتها.

كيفية تصنيف البيانات في الرؤية الحاسوبية

الشكل 1. كيف يتم تصنيف البيانات في الرؤية الحاسوبية.

Link to this sectionأهم 5 سمات لمجموعات بيانات الرؤية الحاسوبية عالية الجودة#

بغض النظر عن نوع مجموعة البيانات، تعد البيانات عالية الجودة ضرورية لبناء نماذج رؤية حاسوبية ناجحة. فيما يلي بعض الخصائص الرئيسية التي تجعل مجموعة البيانات عالية الجودة:

الدقة: من الناحية المثالية، يجب أن تعكس البيانات بدقة مواقف العالم الحقيقي وأن تتضمن تصنيفات صحيحة. على سبيل المثال، عندما يتعلق الأمر بـ الذكاء الاصطناعي البصري في الرعاية الصحية، يجب تصنيف صور الأشعة السينية أو الفحوصات بدقة لمساعدة النموذج على التعلم بشكل صحيح.
التنوع: تتضمن مجموعة البيانات الجيدة مجموعة متنوعة من الأمثلة لمساعدة النموذج على الأداء الجيد في مواقف مختلفة. على سبيل المثال، إذا كان النموذج يتعلم اكتشاف السيارات، فيجب أن تتضمن مجموعة البيانات سيارات بأشكال وأحجام وألوان مختلفة في إعدادات متنوعة (نهاراً، ليلاً، مطر، إلخ).
الاتساق: تتبع مجموعات البيانات عالية الجودة تنسيقاً ومعايير جودة موحدة. على سبيل المثال، يجب أن تتمتع الصور بدقة مماثلة (لا ينبغي أن يكون بعضها ضبابياً والآخر حاداً) وأن تمر بنفس خطوات المعالجة المسبقة، مثل تغيير الحجم أو تعديلات الألوان، حتى يتعلم النموذج من معلومات متسقة.
الحداثة: مجموعات البيانات التي يتم تحديثها بانتظام يمكنها مواكبة تغيرات العالم الحقيقي. لنفترض أنك تدرب نموذجاً لاكتشاف جميع أنواع المركبات. إذا تم تقديم أنواع جديدة، مثل الدراجات البخارية الكهربائية، فيجب إضافتها إلى مجموعة البيانات للتأكد من أن النموذج يظل دقيقاً ومحدثاً.
الخصوصية: إذا تضمنت مجموعة البيانات معلومات حساسة، مثل صور الأشخاص، فيجب أن تتبع قواعد الخصوصية. يمكن لتقنيات مثل إخفاء الهوية (إزالة التفاصيل القابلة للتعريف) وقناع البيانات (إخفاء الأجزاء الحساسة) حماية الخصوصية مع الاستمرار في جعل استخدام البيانات بشكل آمن ممكناً.

Link to this sectionالتحديات التي تسببها البيانات منخفضة الجودة#

في حين أن فهم سمات البيانات عالية الجودة أمر مهم، فمن الضروري أيضاً مراعاة كيف يمكن أن تؤثر البيانات منخفضة الجودة على نماذج الرؤية الحاسوبية الخاصة بك.

يمكن أن تؤثر مشكلات مثل الإفراط في التخصيص (Overfitting) ونقص التخصيص (Underfitting) بشدة على أداء النموذج. يحدث الإفراط في التخصيص عندما يعمل النموذج بشكل جيد على بيانات التدريب ولكنه يواجه صعوبة مع بيانات جديدة أو غير مرئية، وغالباً ما يكون ذلك بسبب افتقار مجموعة البيانات إلى التنوع. من ناحية أخرى، يحدث نقص التخصيص عندما لا توفر مجموعة البيانات أمثلة أو جودة كافية للنموذج لتعلم أنماط ذات مغزى. لتجنب هذه المشكلات، من الضروري الحفاظ على مجموعات بيانات متنوعة وغير متحيزة وعالية الجودة، مما يضمن أداءً موثوقاً في كل من التدريب وتطبيقات العالم الحقيقي.

نقص التخصيص مقابل فرط التخصيص

الشكل 2. نقص التخصيص مقابل الإفراط في التخصيص.

يمكن للبيانات منخفضة الجودة أيضاً أن تجعل من الصعب على النماذج استخراج وتعلم أنماط ذات مغزى من البيانات الخام، وهي عملية تُعرف باسم استخراج الميزات. إذا كانت مجموعة البيانات غير مكتملة أو غير ذات صلة أو تفتقر إلى التنوع، فقد يواجه النموذج صعوبة في الأداء بفعالية.

في بعض الأحيان، يمكن أن تكون البيانات منخفضة الجودة نتيجة لتبسيط البيانات. يمكن أن يساعد تبسيط البيانات في توفير مساحة التخزين وتقليل تكاليف المعالجة، ولكن التبسيط المفرط يمكن أن يزيل تفاصيل مهمة يحتاجها النموذج للعمل بشكل جيد. ولهذا السبب من المهم جداً الحفاظ على بيانات عالية الجودة طوال عملية الرؤية الحاسوبية بأكملها، من الجمع إلى النشر. كقاعدة عامة، يجب أن تتضمن مجموعات البيانات الميزات الأساسية مع البقاء متنوعة ودقيقة لضمان تنبؤات موثوقة للنموذج.

فهم استخراج الميزات

الشكل 3. فهم استخراج الميزات.

Link to this sectionنصائح للحفاظ على جودة مجموعة بيانات الرؤية الحاسوبية الخاصة بك#

الآن بعد أن فهمنا أهمية البيانات عالية الجودة وتأثير البيانات منخفضة الجودة، دعونا نستكشف كيفية التأكد من أن مجموعة البيانات الخاصة بك تلبي المعايير العالية.

يبدأ الأمر كله بجمع بيانات موثوق. استخدام مصادر متنوعة مثل التعهيد الجماعي، والبيانات من مناطق جغرافية متنوعة، وتوليد البيانات الاصطناعية يقلل من التحيز ويساعد النماذج على التعامل مع سيناريوهات العالم الحقيقي. بمجرد جمع البيانات، تعد المعالجة المسبقة أمراً بالغ الأهمية. تقنيات مثل التسوية، التي تحجّم قيم البكسل إلى نطاق ثابت، والزيادة، التي تطبق تحويلات مثل الدوران والقلب والتكبير، تعزز مجموعة البيانات. تساعد هذه الخطوات نموذجك على التعميم بشكل أفضل ويصبح أكثر قوة، مما يقلل من خطر الإفراط في التخصيص.

يعد تقسيم مجموعات البيانات بشكل صحيح خطوة رئيسية أخرى. النهج الشائع هو تخصيص 70% من البيانات للتدريب، و15% للتحقق، و15% للاختبار. التحقق المزدوج من عدم وجود تداخل بين هذه المجموعات يمنع تسرب البيانات ويضمن تقييماً دقيقاً للنموذج.

تقسيم شائع للبيانات بين التدريب والتحقق والاختبار

الشكل 4. تقسيم شائع للبيانات بين التدريب والتحقق والاختبار.

يمكنك أيضاً استخدام نماذج مدربة مسبقاً مثل YOLO11 لتوفير الوقت والموارد الحسابية. يمكن ضبط YOLO11، المدرب على مجموعات بيانات كبيرة والمصمم لمختلف مهام الرؤية الحاسوبية، على مجموعة البيانات الخاصة بك لتلبية احتياجاتك. من خلال ضبط النموذج لبياناتك، يمكنك تجنب الإفراط في التخصيص والحفاظ على أداء قوي.

Link to this sectionالطريق أمام مجموعات بيانات الرؤية الحاسوبية#

ركز مجتمع الذكاء الاصطناعي تقليدياً على تحسين الأداء من خلال بناء نماذج أعمق ذات طبقات أكثر. ومع ذلك، مع استمرار تطور الذكاء الاصطناعي، يتحول التركيز من تحسين النماذج إلى تحسين جودة مجموعات البيانات. يعتقد أندرو نج، الذي يشار إليه غالباً بـ "أب الذكاء الاصطناعي"، أن "أهم تحول يحتاج عالم الذكاء الاصطناعي إلى المرور به في هذا العقد سيكون تحولاً إلى الذكاء الاصطناعي المرتكز على البيانات."

يؤكد هذا النهج على تحسين مجموعات البيانات من خلال تحسين دقة التصنيف، وإزالة الأمثلة المزعجة، وضمان التنوع. بالنسبة للرؤية الحاسوبية، تعد هذه المبادئ حاسمة لمعالجة قضايا مثل التحيز والبيانات منخفضة الجودة، مما يُمكّن النماذج من الأداء بشكل موثوق في سيناريوهات العالم الحقيقي.

بالنظر إلى المستقبل، سيعتمد تقدم الرؤية الحاسوبية على إنشاء مجموعات بيانات أصغر وعالية الجودة بدلاً من جمع كميات هائلة من البيانات. وفقاً لأندرو نج، "تحسين البيانات ليس خطوة معالجة مسبقة لمرة واحدة؛ إنه جزء أساسي من العملية التكرارية لتطوير نماذج التعلم الآلي." من خلال التركيز على المبادئ المرتكزة على البيانات، ستستمر الرؤية الحاسوبية في أن تصبح أكثر سهولة وكفاءة وتأثيراً عبر مختلف الصناعات.

Link to this sectionأبرز النقاط#

تلعب البيانات دوراً حاسماً طوال دورة حياة نموذج الرؤية. من جمع البيانات إلى المعالجة المسبقة، والتدريب، والتحقق، والاختبار، تؤثر جودة البيانات بشكل مباشر على أداء النموذج وموثوقيته. من خلال إعطاء الأولوية للبيانات عالية الجودة والتصنيف الدقيق، يمكننا بناء نماذج رؤية حاسوبية قوية تقدم نتائج موثوقة ودقيقة.

بينما نتحرك نحو مستقبل مدفوع بالبيانات، من الضروري معالجة الاعتبارات الأخلاقية للتخفيف من المخاطر المتعلقة بالتحيز ولوائح الخصوصية. في النهاية، يعد ضمان نزاهة البيانات وعدالتها مفتاحاً لفتح الإمكانات الكاملة لتقنيات الرؤية الحاسوبية.

انضم إلى مجتمعنا وتفقد مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. تصفح صفحات الحلول الخاصة بنا لاستكشاف المزيد من تطبيقات الذكاء الاصطناعي في قطاعات مثل الزراعة والتصنيع.

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

أهمية مجموعات بيانات الرؤية الحاسوبية عالية الجودة

Link to this sectionدور البيانات في بناء نماذج الرؤية الحاسوبية#

Link to this sectionأنواع مجموعات بيانات الرؤية الحاسوبية#

Link to this sectionأهم 5 سمات لمجموعات بيانات الرؤية الحاسوبية عالية الجودة#

Link to this sectionالتحديات التي تسببها البيانات منخفضة الجودة#

Link to this sectionنصائح للحفاظ على جودة مجموعة بيانات الرؤية الحاسوبية الخاصة بك#

Link to this sectionالطريق أمام مجموعات بيانات الرؤية الحاسوبية#

Link to this sectionأبرز النقاط#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!