اكتشف ImageNet مجموعة البيانات الرائدة التي تغذي التقدم في مجال الرؤية الحاسوبية مع أكثر من 14 مليون صورة، والتي تدعم أبحاث الذكاء الاصطناعي ونماذجه وتطبيقاته.
ImageNet عبارة عن قاعدة بيانات بصرية ضخمة يتم الاستشهاد بها على نطاق واسع مصممة للاستخدام في أبحاث برامج التعرف على الأجسام المرئية. وهي تحتوي على أكثر من 14 مليون صورة تم شرحها يدويًا للإشارة إلى الأشياء المصورة، وفي أكثر من مليون من الصور، حيث توجد الأجسام مع مربعات محددة. تم تنظيمها وفقًا ل التسلسل الهرمي لشبكة WordNet، تقوم ImageNet بتعيين الصور لمفاهيم محددة أو "synsetsets"، مما يجعلها موردًا أساسيًا لتدريب وتقييم نماذج الرؤية الحاسوبية (CV). سمح حجمها الهائل وتنوعها الهائل سمح للباحثين بالانتقال إلى ما هو أبعد من التجارب صغيرة النطاق، مما أدى إلى بدء عصر التعلم العميق (DL).
قبل ImageNet كافح الباحثون قبل ImageNet مع مجموعات بيانات صغيرة جدًا لتدريب الشبكات العصبية العميقة الشبكات العصبية العميقة (NN) دون مواجهة دون مواجهة الإفراط في التركيب. تم إنشاؤها من قبل الباحثين في مختبر ستانفورد للرؤية والتعلم في جامعة ستانفورد، حلّت ImageNet مشكلة ندرة البيانات هذه. وقد اكتسبت شهرة عالمية من خلال مسابقةImageNet للتعرف البصري على نطاق واسع (ILSVRC)، وهي مسابقة مسابقة سنوية استمرت من 2010 إلى 2017.
أصبحت هذه المسابقة ساحة اختبار للمهندسين المعماريين المشهورين. في عام 2012، فازت فازت بنية AlexNet بالمسابقة بهامش كبير باستخدام الشبكة العصبية التلافيفية (CNN)، مما يثبت جدوى التعلم العميق على وحدات معالجة الرسومات (GPUs). شهدت السنوات اللاحقة ظهور نماذج أعمق وأكثر تعقيدًا مثل VGG وResNet، والتي خفضت معدلات الخطأ بشكل أكبر وتجاوزت الأداء البشري في مهام تصنيف محددة.
على الرغم من أن ImageNet هي مجموعة بيانات، إلا أن فائدتها الأكثر عملية اليوم تكمن في نقل التعلّم. تدريب شبكة عصبية عميقة من الصفر يتطلب كميات هائلة من من بيانات التدريب والقدرة الحاسوبية. بدلاً من ذلك غالبًا ما يستخدم المطورون نماذج تم تدريبها مسبقًا على ImageNet.
نظرًا لأن ImageNet تغطي مجموعة واسعة من أكثر من 20,000 فئة - من سلالات الكلاب إلى الأدوات المنزلية - فإن النموذج المدرّب عليها يتعلم تمثيلات ميزات غنية وعالية المستوى. هذه الميزات المكتسبة تعمل كعمود فقري قوي قوية للنماذج الجديدة. من خلال صقل هذه الأوزان المدربة مسبقًا، يمكن للمطورين تحقيق دقة عالية في مجموعات البيانات المخصصة الخاصة بهم مع عدد أقل بكثير من الصور.
يمتد تأثير ImageNet إلى كل الصناعات التي تستخدم الذكاء الاصطناعي (AI).
يمكن للمطوّرين الوصول بسهولة إلى النماذج المدرّبة مسبقاً على ImageNet باستخدام مكتبة Ultralytics . المثال التالي يوضح كيفية تحميل نموذج YOLO11 YOLO11, الذي يأتي مع أوزان ImageNet افتراضيًا، واستخدامه لتوقع فئة الصورة.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
من المهم التمييز بين ImageNet ومجموعة بيانات مجموعة بيانات COCO (كائنات مشتركة في السياق).
في حين تُستخدم ImageNet لتعليم النماذج "كيفية الرؤية"، تُستخدم مجموعات البيانات مثل COCO لتعليمها كيفية تحديد موقع وفصل الأجسام في المشاهد المعقدة. غالبًا ما يتم تدريب مشفر النموذج مسبقًا على ImageNet قبل تدريبه على COCO لمهام الكشف.