اكتشف ImageNet، مجموعة البيانات الرائدة التي تغذي التقدم في مجال الرؤية الحاسوبية مع أكثر من 14 مليون صورة، والتي تدعم أبحاث الذكاء الاصطناعي ونماذجه وتطبيقاته.
ImageNet عبارة عن مجموعة بيانات ضخمة متاحة للجمهور تضم أكثر من 14 مليون صورة تم شرحها يدويًا للإشارة إلى الأشياء التي تصورها، وهي منظمة وفقًا للتسلسل الهرمي لشبكة الكلمات. وهي منظمة وفقًا للتسلسل الهرمي لشبكة WordNet، وتحتوي على أكثر من 20,000 فئة، حيث تتكون الفئة النموذجية، مثل "بالون" أو "فراولة"، من عدة مئات من الصور. وقد كان لهذه المجموعة الواسعة والمتنوعة دور أساسي في تطوير مجالات الرؤية الحاسوبية والتعلم العميق، حيث كانت بمثابة معيار لتدريب النماذج وقياسها.
كان إنشاء ImageNet من قبل باحثين في جامعة ستانفورد لحظة محورية للذكاء الاصطناعي. فقبل ImageNet، كانت مجموعات البيانات قبل ImageNet صغيرة جداً لتدريب الشبكات العصبية المعقدة (NN) بشكل فعال، مما أدى إلى مشاكل مثل الإفراط في التهيئة. وفرت ImageNet النطاق اللازم لتدريب النماذج العميقة، مما مهد الطريق لثورة الذكاء الاصطناعي الحديثة. يمكنك معرفة المزيد من خلال قراءة ورقة بحث ImageNet الأصلية.
تم تضخيم تأثير ImageNet من خلال تحدي ImageNet للتعرف البصري على نطاق واسع (ILSVRC)، وهي مسابقة سنوية أقيمت من عام 2010 إلى عام 2017. أصبح هذا التحدي معيارًا حاسمًا لتقييم أداء خوارزميات الرؤية الحاسوبية. في عام 2012، حققت الشبكة العصبية التلافيفية (CNN) المسماة AlexNet انتصارًا رائدًا، حيث تفوقت بشكل كبير على جميع النماذج السابقة. وأظهر هذا النجاح قوة التعلم العميق وحوسبة وحدة معالجة الرسوميات، مما أثار موجة من الابتكار في هذا المجال. لقد كان ILSVRC محركًا رئيسيًا في تطوير العديد من البنى الحديثة، ويمكنك أن ترى أداء النماذج الحالية على معايير مختلفة على مواقع مثل Papers with Code.
الاستخدام الأساسي ل ImageNet هو كمصدر لنماذج ما قبل التدريب. من خلال تدريب نموذج على مجموعة البيانات الضخمة هذه، يتعلم النموذج التعرف على مجموعة غنية من الميزات المرئية. يمكن بعد ذلك نقل هذه المعرفة إلى مهام جديدة أكثر تحديدًا. وتُعرف هذه التقنية باسم التعلُّم التحويلي.
من المهم التفريق بين ImageNet والمصطلحات ومجموعات البيانات الأخرى ذات الصلة:
غالبًا ما يتم تدريب النماذج مثل YOLO11 مسبقًا على ImageNet لتصنيفها قبل أن يتم تدريبها على COCO لمهام الكشف. تستفيد عملية التدريب متعددة المراحل هذه من نقاط القوة في كلا مجموعتي البيانات. يمكنك الاطلاع على كيفية مقارنة النماذج المختلفة على هذه المعايير على صفحات مقارنة النماذج الخاصة بنا. على الرغم من تأثيرها الكبير، إلا أنه من الجدير بالذكر أن ImageNet لها قيود، بما في ذلك تحيزات مجموعة البيانات المعروفة التي من المهم أخذها في الاعتبار من منظور أخلاقيات الذكاء الاصطناعي.