مسرد المصطلحات

إيمدج نت

اكتشف ImageNet، مجموعة البيانات الرائدة التي تغذي التقدم في مجال الرؤية الحاسوبية مع أكثر من 14 مليون صورة، والتي تدعم أبحاث الذكاء الاصطناعي ونماذجه وتطبيقاته.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

ImageNet هي مجموعة بيانات تأسيسية كبيرة جدًا تُستخدم على نطاق واسع في أبحاث الرؤية الحاسوبية وتطويرها. وهي تحتوي على أكثر من 14 مليون صورة تم شرحها يدويًا للإشارة إلى الأشياء المصورة. يتم تنظيم هذه الصور وفقًا للتسلسل الهرمي لقاعدة بيانات WordNet، وهي قاعدة بيانات معجمية كبيرة للأسماء والأفعال والصفات والأحوال English المجمعة في مجموعات من المترادفات المعرفية (synsetsets). مع وجود أكثر من 20,000 فئة، توفر ImageNet موردًا ثريًا ومتنوعًا لتدريب وتقييم نماذج التعلم الآلي (ML) ، خاصةً لمهام مثل تصنيف الصور والتعرف على الصور. وقد كان لحجمها الهائل وشروحها التفصيلية أهمية كبيرة في تطوير مجال الذكاء الاصطناعي. يمكنك معرفة المزيد حول استخدام مجموعة البيانات مع نماذج Ultralytics على صفحة توثيق مجموعة بيانات ImageNet Dataset.

الأهمية والملاءمة

كان تقديم ImageNet بمثابة لحظة محورية للتعلم العميق (DL)، خاصة في مجال الرؤية الحاسوبية. فقبل ImageNet، كان الافتقار إلى مجموعات بيانات كبيرة ومتنوعة وجيدة التسمية يشكل عائقًا كبيرًا يعيق التقدم. مكّنت مجموعات البيانات عالية الجودة مثل ImageNet من تدريب نماذج أعمق وأكثر تعقيدًا، مثل الشبكات العصبية التلافيفية (CNNs)، مما أدى إلى تحقيق اختراقات كبيرة في مهام الفهم البصري. واستخدمت مسابقة ImageNet السنوية للتعرف البصري على نطاق واسع (ILSVRC)، التي استمرت من عام 2010 إلى عام 2017، مجموعة فرعية من ImageNet وأصبحت مجموعة البيانات القياسية القياسية لتقييم تصنيف الصور وخوارزميات اكتشاف الأشياء. وقد أثرت النماذج الرائدة مثل AlexNet وResNet، التي حققت أحدث النتائج على ImageNet، تأثيرًا كبيرًا على بنيات السيرة الذاتية الحديثة وأظهرت قوة التعلم العميق على البيانات واسعة النطاق. تقدم ورقة ILSVRC الأصلية مزيدًا من التفاصيل حول التحدي وتأثيره.

تطبيقات ImageNet

يتمثل التطبيق الأساسي لشبكة ImageNet في العمل كمعيار قياسي لتقييم أداء(دقة وسرعة) نماذج وخوارزميات الرؤية الحاسوبية الجديدة، خاصةً لتصنيف الصور. يتيح اعتماده على نطاق واسع للباحثين مقارنة النتائج بشكل عادل. بالإضافة إلى القياس، تُستخدم ImageNet على نطاق واسع في نماذج ما قبل التدريب. يتضمن التدريب المسبق تدريب نموذج ما على مجموعة بيانات ImageNet الكبيرة والعامة أولاً، مما يسمح له بتعلم ميزات بصرية قوية. هذه النماذج المدرّبة مسبقًا، والتي غالبًا ما تكون متاحة من خلال أطر مثل PyTorch و TensorFlowيمكن بعد ذلك ضبطها على مجموعات بيانات أصغر وأكثر تحديدًا لمختلف المهام النهائية باستخدام التعلّم التحويلي. وهذا يقلل بشكل كبير من كمية البيانات والعمليات الحسابية اللازمة للمهمة المستهدفة وغالبًا ما يؤدي إلى أداء أفضل، خاصة عندما تكون مجموعة البيانات المستهدفة صغيرة. العديد من Ultralytics YOLO على سبيل المثال، تستفيد من استراتيجيات ما قبل التدريب. تعمل منصات مثل Ultralytics HUB على تسهيل عملية تدريب النماذج باستخدام مثل هذه التقنيات.

أمثلة من العالم الحقيقي

يمتد تأثير ImageNet إلى ما هو أبعد من البحث الأكاديمي إلى التطبيقات العملية:

  • تحليل الصور الطبية: غالبًا ما يتم ضبط النماذج التي تم تدريبها مسبقًا على ImageNet لمهام متخصصة في تحليل الصور الطبية. على الرغم من أن الصور الطبية تختلف اختلافًا كبيرًا عن صور ImageNet، إلا أن السمات البصرية الأساسية المستفادة (مثل الحواف والقوام والأشكال الأساسية) توفر نقطة انطلاق قوية. يعمل هذا النهج على تسريع عملية تطوير أدوات الذكاء الاصطناعي لمهام مثل الكشف عن الأورام في التصوير الطبي أو تحديد الحالات الشاذة في الأشعة السينية أو الأشعة المقطعية، مما يساهم في تحقيق تقدم في مجال الذكاء الاصطناعي في الرعاية الصحية.
  • الأنظمة ذاتية القيادة: تعتمد أنظمة الإدراك في المركبات ذاتية القيادة والروبوتات اعتماداً كبيراً على تحديد الأجسام بدقة مثل المشاة والسيارات وإشارات المرور والعوائق. يساعد التدريب المسبق لمكونات التعرف على الأجسام في هذه الأنظمة على ImageNet على تعلم ميزات الأجسام العامة، مما يحسن من قوتها وموثوقيتها عند ضبطها بدقة على بيانات محددة للقيادة أو بيانات البيئة التشغيلية. ويساهم ذلك في تطوير تقنيات مثل تلك التي تستخدمها شركة Waymo والمدمجة في الذكاء الاصطناعي في حلول السيارات.

ImageNet مقابل المفاهيم ذات الصلة

من المهم التمييز بين ImageNet والمهام التي تدعمها ومجموعات البيانات الأخرى ذات الصلة:

  • ImageNet مقابل مهام السيرة الذاتية: ImageNet نفسها هي مجموعة بيانات عبارة عن مجموعة من الصور المصنفة. وهي ليست مهمة مثل تصنيف الصور (تعيين تسمية واحدة للصورة)، أو اكتشاف الكائنات (تحديد موقع الكائنات ذات المربعات المحدودة)، أو تجزئة الصور (تعيين تسمية لكل بكسل، بما في ذلك تجزئة النماذج والتجزئة الدلالية). بدلاً من ذلك، تُستخدم ImageNet في المقام الأول لتدريب وقياس النماذج التي تؤدي هذه المهام، وخاصة التصنيف.
  • ImageNet مقابل COCO: على الرغم من أن ImageNet هي المعيار القياسي للتصنيف، إلا أن مجموعات البيانات مثل COCO (الكائنات المشتركة في السياق) تُستخدم بشكل أكثر شيوعًا لقياس اكتشاف الكائنات وتجزئتها. ويرجع ذلك إلى أن COCO تتضمن توضيحات أكثر تفصيلاً ضرورية لهذه المهام، مثل المربعات المحددة الدقيقة وأقنعة التجزئة لكل بكسل لأجسام متعددة في كل صورة، بينما توفر ImageNet بشكل أساسي تسميات على مستوى الصورة (على الرغم من وجود بعض بيانات تحديد موقع الكائن). يدعم Ultralytics مجموعة متنوعة من مجموعات بيانات الرؤية الحاسوبية لمختلف المهام.

على الرغم من تأثيرها الهائل، إلا أن ImageNet لها أيضًا قيود، بما في ذلك التحيزات المحتملة لمجموعة البيانات التي تعكس فترة جمع البيانات ومصادرها، وهو أمر مهم في أخلاقيات الذكاء الاصطناعي.

قراءة الكل