Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

ImageNet

اكتشف ImageNet مجموعة البيانات الرائدة التي تغذي التقدم في مجال الرؤية الحاسوبية مع أكثر من 14 مليون صورة، والتي تدعم أبحاث الذكاء الاصطناعي ونماذجه وتطبيقاته.

ImageNet عبارة عن قاعدة بيانات بصرية ضخمة يتم الاستشهاد بها على نطاق واسع مصممة للاستخدام في أبحاث برامج التعرف على الأجسام المرئية. وهي تحتوي على أكثر من 14 مليون صورة تم شرحها يدويًا للإشارة إلى الأشياء المصورة، وفي أكثر من مليون من الصور، حيث توجد الأجسام مع مربعات محددة. تم تنظيمها وفقًا ل التسلسل الهرمي لشبكة WordNet، تقوم ImageNet بتعيين الصور لمفاهيم محددة أو "synsetsets"، مما يجعلها موردًا أساسيًا لتدريب وتقييم نماذج الرؤية الحاسوبية (CV). سمح حجمها الهائل وتنوعها الهائل سمح للباحثين بالانتقال إلى ما هو أبعد من التجارب صغيرة النطاق، مما أدى إلى بدء عصر التعلم العميق (DL).

تطور التعرف البصري

قبل ImageNet كافح الباحثون قبل ImageNet مع مجموعات بيانات صغيرة جدًا لتدريب الشبكات العصبية العميقة الشبكات العصبية العميقة (NN) دون مواجهة دون مواجهة الإفراط في التركيب. تم إنشاؤها من قبل الباحثين في مختبر ستانفورد للرؤية والتعلم في جامعة ستانفورد، حلّت ImageNet مشكلة ندرة البيانات هذه. وقد اكتسبت شهرة عالمية من خلال مسابقةImageNet للتعرف البصري على نطاق واسع (ILSVRC)، وهي مسابقة مسابقة سنوية استمرت من 2010 إلى 2017.

أصبحت هذه المسابقة ساحة اختبار للمهندسين المعماريين المشهورين. في عام 2012، فازت فازت بنية AlexNet بالمسابقة بهامش كبير باستخدام الشبكة العصبية التلافيفية (CNN)، مما يثبت جدوى التعلم العميق على وحدات معالجة الرسومات (GPUs). شهدت السنوات اللاحقة ظهور نماذج أعمق وأكثر تعقيدًا مثل VGG وResNet، والتي خفضت معدلات الخطأ بشكل أكبر وتجاوزت الأداء البشري في مهام تصنيف محددة.

نقل التعلم والتدريب المسبق

على الرغم من أن ImageNet هي مجموعة بيانات، إلا أن فائدتها الأكثر عملية اليوم تكمن في نقل التعلّم. تدريب شبكة عصبية عميقة من الصفر يتطلب كميات هائلة من من بيانات التدريب والقدرة الحاسوبية. بدلاً من ذلك غالبًا ما يستخدم المطورون نماذج تم تدريبها مسبقًا على ImageNet.

نظرًا لأن ImageNet تغطي مجموعة واسعة من أكثر من 20,000 فئة - من سلالات الكلاب إلى الأدوات المنزلية - فإن النموذج المدرّب عليها يتعلم تمثيلات ميزات غنية وعالية المستوى. هذه الميزات المكتسبة تعمل كعمود فقري قوي قوية للنماذج الجديدة. من خلال صقل هذه الأوزان المدربة مسبقًا، يمكن للمطورين تحقيق دقة عالية في مجموعات البيانات المخصصة الخاصة بهم مع عدد أقل بكثير من الصور.

تطبيقات واقعية

يمتد تأثير ImageNet إلى كل الصناعات التي تستخدم الذكاء الاصطناعي (AI).

  1. التشخيص الطبي: في تحليل الصور الطبية، تكون البيانات المصنفة غالبًا ما تكون نادرة ومكلفة للحصول عليها. يستخدم الباحثون نماذج مدرّبة مسبقاً على ImageNet لتحديد الأشكال العامة و العامة، ثم ضبطها بدقة detect الأورام أو الكسور في الأشعة السينية. يعمل هذا النهج على تسريع تطوير الذكاء الاصطناعي المنقذ للحياة في أدوات الرعاية الصحية.
  2. أنظمة البيع بالتجزئة الذكية: تعتمد أنظمة الدفع الآلي على تحديد آلاف المنتجات. بدلاً من بدلاً من جمع الملايين من صور علب الحبوب، يستفيد المهندسون من مصنفات ImageNet للتعرف على أشكال المنتجات الأساسية والعلامات التجارية. وهذا يتيح سرعة النشر السريع للنموذج من أجل كفاءة الذكاء الاصطناعي في إدارة مخزون التجزئة بكفاءة.

استخدام نماذج ImageNet المدربة مسبقاً

يمكن للمطوّرين الوصول بسهولة إلى النماذج المدرّبة مسبقاً على ImageNet باستخدام مكتبة Ultralytics . المثال التالي يوضح كيفية تحميل نموذج YOLO11 YOLO11, الذي يأتي مع أوزان ImageNet افتراضيًا، واستخدامه لتوقع فئة الصورة.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet مقابل COCO

من المهم التمييز بين ImageNet ومجموعة بيانات مجموعة بيانات COCO (كائنات مشتركة في السياق).

  • ImageNet هو في المقام الأول معيار ل تصنيف الصور، حيث الهدف هو تعيين تسمية واحدة (مثل "قطة عانس") لصورة كاملة. تركز التعليقات التوضيحية على ما هو موجود في الصورة.
  • COCO هو المعيار القياسي ل للكشف عن الأجسام و وتجزئة المثيل. يحتوي على عدد أقل من من الصور الإجمالية ولكنه يقدم شروحًا معقدة مع المربعات المحدودة وأقنعة البكسل الحكيمة للعديد من متعددة لكل صورة، مع التركيز على مكان وجود الأجسام.

في حين تُستخدم ImageNet لتعليم النماذج "كيفية الرؤية"، تُستخدم مجموعات البيانات مثل COCO لتعليمها كيفية تحديد موقع وفصل الأجسام في المشاهد المعقدة. غالبًا ما يتم تدريب مشفر النموذج مسبقًا على ImageNet قبل تدريبه على COCO لمهام الكشف.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن