يولو فيجن شنتشن
شنتشن
انضم الآن

استكشاف أفضل مجموعات بيانات رؤية الحاسوب في عام 2025

أبيرامي فينا

5 دقائق قراءة

21 فبراير 2025

انضموا إلينا في نظرة فاحصة على أفضل مجموعات بيانات رؤية الحاسوب لعام 2025. تعرفوا على كيف تدفع مجموعات البيانات المتنوعة وعالية الجودة حلول رؤية الذكاء الاصطناعي الأكثر ذكاءً.

هل تعلم أن البيانات تلعب دورًا في كل ما تفعله يوميًا تقريبًا؟ إن مشاهدة مقطع فيديو أو التقاط صورة أو التحقق من خرائط Google يساهم في التدفق المستمر للمعلومات التي تلتقطها أكثر من 75 مليار جهاز متصل. تشكل هذه الأجزاء من البيانات أساس الذكاء الاصطناعي (AI). في الواقع، تعتمد نماذج رؤية الكمبيوتر المتقدمة مثل Ultralytics YOLO11 على البيانات المرئية لتحديد الأنماط وتفسير الصور وفهم العالم من حولنا.

ومن المثير للاهتمام أن قيمة البيانات لا تتعلق فقط بالكمية. الأهم هو مدى تنظيمها وإعدادها بشكل جيد. إذا كانت مجموعة البيانات فوضوية أو غير كاملة، فقد يؤدي ذلك إلى أخطاء. ومع ذلك، عندما تكون مجموعات البيانات نظيفة ومتنوعة، فإنها تساعد نماذج الرؤية الحاسوبية على الأداء بشكل أفضل، سواء كان ذلك في التعرف على الكائنات في حشد من الناس أو تحليل المرئيات المعقدة. مجموعات البيانات عالية الجودة تحدث فرقًا كبيرًا.

في هذه المقالة، سنستكشف أفضل مجموعات بيانات الرؤية الحاسوبية لعام 2025 ونرى كيف تساهم في بناء نماذج رؤية حاسوبية أكثر دقة وكفاءة. هيا بنا نبدأ!

ما هي مجموعات بيانات الرؤية الحاسوبية؟

تُعد مجموعة بيانات الرؤية الحاسوبية عبارة عن مجموعة من الصور أو مقاطع الفيديو التي تساعد أنظمة الرؤية الحاسوبية على تعلم فهم المعلومات المرئية والتعرف عليها. تأتي مجموعات البيانات هذه مع تسميات أو شروحات توضيحية تساعد النماذج على التعرف على الكائنات والأشخاص والمشاهد والأنماط داخل البيانات.

يمكن استخدامها لتدريب نماذج رؤية الكمبيوتر، مما يساعدها على تحسين مهام مثل تحديد الوجوه، واكتشاف الكائنات، أو تحليل المشاهد. وكلما كانت مجموعة البيانات أفضل - منظمة تنظيماً جيداً ومتنوعة ودقيقة - كان أداء نموذج رؤية الذكاء الاصطناعي أفضل، مما يؤدي إلى تكنولوجيا أكثر ذكاءً وفائدة في الحياة اليومية.

كيفية بناء مجموعة بيانات للرؤية الحاسوبية

إن بناء مجموعة بيانات للرؤية الحاسوبية يشبه إعداد ملاحظات دراسية لتعليم شخص ما كيف يرى العالم ويفهمه. يبدأ كل شيء بجمع الصور ومقاطع الفيديو التي تتطابق مع التطبيق المحدد الذي تقوم بتطويره. 

تتضمن مجموعة البيانات المثالية أمثلة متنوعة للأشياء محل الاهتمام، يتم التقاطها من زوايا مختلفة، وفي ظل ظروف إضاءة متنوعة، وعبر خلفيات وبيئات متعددة. يضمن هذا التنوع أن نموذج رؤية الكمبيوتر يتعلم التعرف على الأنماط بدقة ويؤدي أداءً موثوقًا به في سيناريوهات العالم الحقيقي.

__wf_reserved_inherit
الشكل 1. بناء مجموعة بيانات رؤية مثالية. صورة للمؤلف.

بعد جمع الصور ومقاطع الفيديو ذات الصلة، فإن الخطوة التالية هي تسمية البيانات. تتضمن هذه العملية إضافة علامات أو تعليقات توضيحية أو أوصاف إلى البيانات حتى يتمكن الذكاء الاصطناعي من فهم محتويات كل صورة أو مقطع فيديو. 

يمكن أن تتضمن الملصقات أسماء الكائنات أو المواقع أو الحدود أو التفاصيل الأخرى ذات الصلة التي تساعد في تدريب النموذج على التعرف على المعلومات المرئية وتفسيرها بدقة. تحول عملية تسمية البيانات مجموعة بسيطة من الصور إلى مجموعة بيانات منظمة يمكن استخدامها لتدريب نموذج رؤية حاسوبية.

يتطلب تدريب النموذج بيانات عالية الجودة

قد تتساءل عما الذي يجعل مجموعة البيانات عالية الجودة. هناك العديد من العوامل التي تنطوي على ذلك، مثل التصنيف الدقيق والتنوع والاتساق. على سبيل المثال، إذا كان العديد من المصنفين يقومون بتصنيف مجموعة بيانات اكتشاف الكائنات لتحديد آذان القطط، فقد يصنفها أحدهم كجزء من الرأس بينما يصنفها آخر بشكل منفصل كآذان. يمكن أن يؤدي هذا التناقض إلى إرباك النموذج ويؤثر على قدرته على التعلم بشكل صحيح.

إليك نظرة عامة سريعة على صفات مجموعة بيانات رؤية الحاسوب المثالية:

  • تسميات واضحة: يتم شرح كل صورة بدقة باستخدام تسميات متسقة ودقيقة.
  • بيانات متنوعة: تتضمن مجموعة البيانات كائنات وخلفيات وظروف إضاءة وزوايا مختلفة لمساعدة النموذج على العمل بشكل جيد في مواقف مختلفة.
  • صور عالية الدقة: تسهل الصور الحادة والمفصلة على النموذج تعلم الميزات والتعرف عليها.

تدعم Ultralytics مجموعات بيانات متنوعة

تم تصميم نماذج Ultralytics YOLO، مثل YOLO11، للعمل مع مجموعات البيانات بتنسيق ملف YOLO محدد. على الرغم من سهولة تحويل البيانات الخاصة بك إلى هذا التنسيق، فإننا نوفر أيضًا خيارًا خاليًا من المتاعب لأولئك الذين يرغبون في بدء التجربة على الفور. 

تدعم حزمة Ultralytics Python مجموعة واسعة من مجموعات بيانات رؤية الكمبيوتر، مما يسمح لك بالانغماس في المشاريع باستخدام مهام مثل الكشف عن الأجسام أو تقسيم المثيلات أو تقدير الوضعية دون أي إعداد إضافي.  

يمكن للمستخدمين الوصول بسهولة إلى مجموعات البيانات الجاهزة للاستخدام مثل COCO و DOTA-v2.0 و Open Images V7 و ImageNet عن طريق تحديد اسم مجموعة البيانات كأحد المعلمات في وظيفة التدريب. عند القيام بذلك، يتم تنزيل مجموعة البيانات وتكوينها تلقائيًا، حتى تتمكن من التركيز على بناء نماذجك وتحسينها.

أفضل 5 مجموعات بيانات للرؤية الحاسوبية في عام 2025

تعتمد التطورات في مجال الرؤية الاصطناعية على مجموعات بيانات متنوعة وواسعة النطاق تدفع الابتكار وتمكن من تحقيق اختراقات. لنلقِ نظرة على بعض أهم مجموعات البيانات، التي تدعمها Ultralytics، والتي تؤثر على نماذج الرؤية الحاسوبية.

مجموعة بيانات ImageNet 

ImageNet، التي أنشأتها Fei-Fei Li وفريقها في جامعة Princeton في عام 2007 وقدمت في عام 2009، هي مجموعة بيانات كبيرة تضم أكثر من 14 مليون صورة مصنفة. يتم استخدامه على نطاق واسع لتدريب الأنظمة على التعرف على الكائنات المختلفة وتصنيفها. تصميمها المنظم يجعلها مفيدة بشكل خاص لتعليم النماذج كيفية تصنيف الصور بدقة. على الرغم من أنها موثقة جيدًا، إلا أنها تركز بشكل أساسي على تصنيف الصور وتفتقر إلى تعليقات توضيحية مفصلة لمهام مثل اكتشاف الكائنات. 

إليك نظرة على بعض نقاط القوة الرئيسية في ImageNet:

  • التنوع: من خلال الصور التي تغطي أكثر من 20000 فئة، تقدم ImageNet مجموعة بيانات واسعة ومتنوعة تعمل على تحسين تدريب النموذج وتعميمه.
  • تنظيم منظم: يتم تصنيف الصور بدقة باستخدام التسلسل الهرمي WordNet، مما يسهل استرجاع البيانات بكفاءة والتدريب المنهجي للنموذج. 
  • وثائق شاملة: إن الأبحاث المكثفة وسنوات الدراسة تجعل ImageNet في متناول كل من المبتدئين والخبراء، مما يوفر رؤى وإرشادات قيمة لـ مشاريع الرؤية الحاسوبية.

ومع ذلك، مثل أي مجموعة بيانات، لها قيودها. فيما يلي بعض التحديات التي يجب مراعاتها:

  • المتطلبات الحسابية: قد يشكل حجمه الهائل تحديات للفرق الصغيرة ذات الموارد الحاسوبية المحدودة.
  • نقص في البيانات الزمنية: نظرًا لأنه يحتوي على صور ثابتة فقط، فقد لا يلبي احتياجات التطبيقات التي تتطلب بيانات فيديو أو بيانات تستند إلى الوقت.
  • صور قديمة: بعض الصور في مجموعة البيانات قديمة وقد لا تعكس الكائنات أو الأنماط أو البيئات الحالية، مما قد يقلل من الملاءمة للتطبيقات الحديثة.

مجموعة بيانات DOTA-v2.0

تعد مجموعة بيانات DOTA-v2.0، حيث يرمز DOTA إلى مجموعة بيانات لاكتشاف الكائنات في الصور الجوية، عبارة عن مجموعة واسعة من الصور الجوية تم إنشاؤها خصيصًا لـ اكتشاف الكائنات ذات المربعات المحيطة الموجهة (OBB). في اكتشاف OBB، يتم استخدام مربعات محيطة مدورة للمحاذاة بدقة أكبر مع الاتجاه الفعلي للكائنات في الصورة. تعمل هذه الطريقة بشكل جيد بشكل خاص للصور الجوية، حيث تظهر الكائنات غالبًا بزوايا مختلفة، مما يؤدي إلى تحديد موقع أكثر دقة واكتشاف أفضل بشكل عام.

تتكون هذه المجموعة من البيانات من أكثر من 11,000 صورة وأكثر من 1.7 مليون صندوق إحاطة موجه عبر 18 فئة من الكائنات. تتراوح أحجام الصور من 800 × 800 إلى 20,000 × 20,000 بكسل، وتشمل كائنات مثل الطائرات والسفن والمباني. 

__wf_reserved_inherit
الشكل 2. أمثلة على الصور والتعليقات التوضيحية من مجموعة بيانات DOTA-v2.0. الصورة من إعداد المؤلف.

بسبب الشروحات التفصيلية، أصبحت DOTA-v2.0 خيارًا شائعًا لمشاريع الاستشعار عن بعد والمراقبة الجوية. فيما يلي بعض الميزات الرئيسية لـ DOTA-v2.0:

  • فئات كائنات متنوعة: وهي تغطي أنواعًا مختلفة من الكائنات، مثل المركبات والموانئ وخزانات التخزين، مما يمنح النماذج تعرضًا للكائنات الواقعية المختلفة.
  • شروحات عالية الجودة: قدم الشارحون الخبراء مربعات إحاطة موجهة بدقة توضح بوضوح أشكال واتجاهات الكائنات.
  • صور متعددة المقاييس: تتضمن مجموعة البيانات صورًا بأحجام مختلفة، مما يساعد النماذج على تعلم كيفية اكتشاف الكائنات على نطاقات صغيرة وكبيرة.

في حين أن DOTA-v2 لديه العديد من نقاط القوة، إلا أن هنا بعض القيود التي يجب على المستخدمين وضعها في الاعتبار:

  • خطوات تنزيل إضافية: نظرًا للطريقة التي يتم بها الاحتفاظ بمجموعة بيانات DOTA، يتطلب DOTA-v2.0 خطوة إعداد إضافية. تحتاج أولاً إلى تنزيل صور DOTA-v1.0 ثم إضافة الصور الإضافية والتعليقات التوضيحية المحدثة لـ DOTA-v2.0 لإكمال مجموعة البيانات.
  • ترميزات معقدة: قد تتطلب الصناديق المحيطة الموجهة جهدًا إضافيًا للتعامل معها أثناء تدريب النموذج.
  • نطاق محدود: تم تصميم DOTA-v2 للصور الجوية، مما يجعله أقل فائدة لمهام الكشف عن الكائنات العامة خارج هذا المجال.

مجموعة بيانات Roboflow 100 

تم إنشاء مجموعة البيانات Roboflow 100 (RF100) بواسطة Roboflow بدعم من Intel. يمكن استخدامها لاختبار وقياس مدى جودة عمل نماذج الكشف عن الأجسام. تتضمن مجموعة البيانات المعيارية هذه 100 مجموعة بيانات مختلفة تم اختيارها من بين أكثر من 90,000 مجموعة بيانات عامة. تحتوي على أكثر من 224,000 صورة و 800 فئة أجسام من مجالات مثل الرعاية الصحية والمشاهد الجوية والألعاب. 

فيما يلي بعض المزايا الرئيسية لاستخدام RF100:

  • تغطية واسعة النطاق: تتضمن مجموعات بيانات من سبعة مجالات، مثل التصوير الطبي، والمناظر الجوية، والاستكشاف تحت الماء.
  • تشجيع تحسين النموذج: يكشف التباين والتحديات الخاصة بالمجال في RF100 عن فجوات في النماذج الحالية، مما يدفع البحث نحو حلول أكثر قابلية للتكيف وقوة للكشف عن الكائنات.
  • تنسيق صورة متسق: يتم تغيير حجم جميع الصور إلى 640 × 640 بكسل. يساعد هذا المستخدمين على تدريب النماذج دون الحاجة إلى ضبط أحجام الصور.

على الرغم من نقاط قوته، يأتي RF100 أيضًا مع بعض العيوب التي يجب وضعها في الاعتبار:

  • محدود من حيث المهام: تم تصميم RF100 للكشف عن الكائنات، لذلك لا يمكنه استيعاب مهام مثل التجزئة أو التصنيف.
  • التركيز على القياس المعياري: تم تصميم RF100 بشكل أساسي كأداة للقياس المعياري بدلاً من تدريب النماذج للتطبيقات الواقعية، لذلك قد لا تترجم نتائجها بالكامل إلى سيناريوهات النشر العملي.
  • تغيرات الشروح التوضيحية (Annotation variability): نظرًا لأن RF100 تجمع مجموعات بيانات من مصادر جماعية، فقد تكون هناك اختلافات في جودة الشروح التوضيحية وممارسات وضع العلامات، مما قد يؤثر على تقييم النموذج وضبطه بدقة.

مجموعة بيانات COCO (الكائنات الشائعة في السياق)

تعد مجموعة بيانات COCO واحدة من أكثر مجموعات بيانات رؤية الحاسوب استخدامًا على نطاق واسع، حيث تقدم أكثر من 330,000 صورة مع تعليقات توضيحية تفصيلية للصور. وهي مصممة لاكتشاف الكائنات وتجزئة الصور والتعليق عليها، مما يجعلها موردًا قيمًا للعديد من المشاريع. تساعد الملصقات التفصيلية الخاصة بها، بما في ذلك المربعات المحيطة وأقنعة التجزئة، الأنظمة على تعلم تحليل الصور بدقة.

تشتهر هذه المجموعة من البيانات بمرونتها وهي مفيدة لمختلف المهام، من المشاريع البسيطة إلى المعقدة. لقد أصبحت معيارًا في مجال رؤية الذكاء الاصطناعي، وتستخدم بشكل متكرر في التحديات والمسابقات لتقييم أداء النموذج.

تتضمن بعض نقاط القوة ما يلي:

  • بيانات متنوعة وواقعية: تتضمن مجموعة البيانات صورًا من سيناريوهات واقعية مع كائنات متعددة، وإعاقات، وظروف إضاءة متنوعة.
  • مجتمع قوي واعتماد بحثي: تُستخدم مجموعة بيانات COCO في مسابقات التعلم الآلي والأبحاث الرئيسية، ولديها وثائق شاملة ونماذج مُدرَّبة مسبقًا ودعم مجتمعي نشط.
  • تعليقات توضيحية غنية ومفصلة: توفر مجموعة بيانات COCO تعليقات توضيحية مفصلة للغاية، بما في ذلك تجزئة الكائنات والنقاط الرئيسية والتسميات التوضيحية، مما يجعلها مثالية للمشاريع التي تتطلب فهمًا مرئيًا دقيقًا.

إليك بعض العوامل المحددة التي يجب الانتباه إليها أيضًا:

  • متطلبات حسابية عالية: نظرًا لحجم وتعقيد تدريب النماذج على COCO، فقد يتطلب موارد حسابية كبيرة، مما يجعله تحديًا للفرق ذات الأجهزة المحدودة.
  • عدم توازن البيانات: تحتوي بعض فئات الكائنات على صور أكثر بكثير من غيرها، مما قد يؤدي إلى التحيز في تدريب النموذج.
  • هيكل ترميز معقد: يمكن أن تكون الترميزات التفصيلية لمجموعة البيانات، على الرغم من قيمتها، مربكة للمبتدئين أو الفرق الصغيرة التي تفتقر إلى الخبرة في العمل مع مجموعات بيانات الرؤية الاصطناعية المهيكلة.

مجموعة بيانات Open Images V7

Open Images V7 عبارة عن مجموعة بيانات ضخمة مفتوحة المصدر برعاية Google، وتضم أكثر من 9 ملايين صورة مع شروحات توضيحية لـ 600 فئة من الكائنات. وهي تتضمن مجموعة متنوعة من أنواع الشروحات التوضيحية وتعتبر مثالية لمعالجة مهام رؤية الكمبيوتر المعقدة. يوفر حجمها وعمقها موردًا شاملاً لتدريب واختبار نماذج رؤية الكمبيوتر.

__wf_reserved_inherit
الشكل 3. لمحة عن مجموعة بيانات Open Images V7. صورة للمؤلف.

أيضًا، توفر شعبية مجموعة بيانات Open Images V7 في البحث الكثير من الموارد والأمثلة للمستخدمين للتعلم منها. ومع ذلك، يمكن أن يجعل حجمها الهائل تنزيلها ومعالجتها تستغرق وقتًا طويلاً، خاصة بالنسبة للفرق الصغيرة. هناك مشكلة أخرى وهي أن بعض التعليقات التوضيحية قد تكون غير متسقة، مما يتطلب جهدًا إضافيًا لتنظيف البيانات، والتكامل ليس دائمًا سلسًا، مما يعني أن إعدادًا إضافيًا قد يكون مطلوبًا. 

اختيار مجموعة البيانات الصحيحة 

يعد اختيار مجموعة البيانات المناسبة جزءًا كبيرًا من إعداد مشروع الرؤية الحاسوبية الخاص بك لتحقيق النجاح. يعتمد الخيار الأفضل على مهمتك المحددة - فالعثور على تطابق جيد يساعد النموذج الخاص بك على تعلم المهارات الصحيحة. يجب أن يتكامل أيضًا بسهولة مع أدواتك، حتى تتمكن من التركيز بشكل أكبر على بناء النموذج الخاص بك وتقليل المشكلات.

__wf_reserved_inherit
الشكل 4. عوامل اختيار مجموعة البيانات المناسبة. صورة للمؤلف.

النقاط الرئيسية

تُعد مجموعات البيانات عالية الجودة العمود الفقري لأي نموذج رؤية حاسوبية، حيث تساعد الأنظمة على تعلم تفسير الصور بدقة. تعتبر مجموعات البيانات المتنوعة والمشروحة جيدًا ذات أهمية خاصة، لأنها تمكن النماذج من الأداء بشكل موثوق في سيناريوهات العالم الحقيقي وتقليل الأخطاء الناتجة عن البيانات المحدودة أو ذات الجودة الرديئة.

تبسّط Ultralytics عملية الوصول إلى مجموعات بيانات رؤية الكمبيوتر والعمل معها، مما يسهل العثور على البيانات المناسبة لمشروعك. يعد اختيار مجموعة البيانات الصحيحة خطوة حاسمة في بناء نموذج عالي الأداء، مما يؤدي إلى نتائج أكثر دقة وتأثيرًا.

انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. اكتشف التطورات مثل الرؤية الحاسوبية للرعاية الصحية و الذكاء الاصطناعي في السيارات ذاتية القيادة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا واتخذ الخطوة الأولى نحو البدء في الرؤية الحاسوبية اليوم!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة