استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

تاريخ نماذج الرؤية

مصطفى إبراهيم

5 دقائق قراءة

16 يوليو، 2024

اكتشف تاريخ وإنجازات وتحديات واتجاهات مستقبل نماذج الرؤية.

ما هي الرؤية الحاسوبية؟

تخيل أنك تدخل متجرًا حيث تحدد الكاميرا وجهك وتحلل حالتك المزاجية وتقترح منتجات مصممة خصيصًا لتفضيلاتك - كل ذلك في الوقت الفعلي. هذا ليس خيالًا علميًا ولكنه حقيقة واقعة بفضل نماذج الرؤية الحديثة. وفقًا لتقرير صادر عن Fortune Business Insight، بلغت قيمة سوق رؤية الكمبيوتر العالمي 20.31 مليار دولار أمريكي في عام 2023 ومن المتوقع أن ينمو من 25.41 مليار دولار أمريكي في عام 2024 إلى 175.72 مليار دولار أمريكي بحلول عام 2032، مما يعكس التطورات السريعة والاعتماد المتزايد لهذه التكنولوجيا في مختلف الصناعات.

يمكّن مجال رؤية الحاسوب أجهزة الحاسوب من اكتشاف وتحديد وتحليل الأجسام داخل الصور. على غرار المجالات الأخرى المتعلقة بالذكاء الاصطناعي، شهدت رؤية الحاسوب تطوراً سريعاً على مدى العقود القليلة الماضية، وحققت تقدماً ملحوظاً. 

تاريخ الرؤية الحاسوبية واسع النطاق. في سنواتها الأولى، كانت نماذج الرؤية الحاسوبية قادرة على اكتشاف الأشكال والحواف البسيطة، وغالبًا ما كانت تقتصر على المهام الأساسية مثل التعرف على الأنماط الهندسية أو التمييز بين المناطق المضيئة والمظلمة. ومع ذلك، يمكن لنماذج اليوم أداء مهام معقدة مثل اكتشاف الأجسام في الوقت الفعلي، والتعرف على الوجوه، وحتى تفسير المشاعر من تعابير الوجه بدقة وكفاءة استثنائيتين. يسلط هذا التقدم الدراماتيكي الضوء على الخطوات المذهلة التي تم إحرازها في القدرة الحاسوبية، والتطور الخوارزمي، وتوافر كميات هائلة من البيانات للتدريب.

في هذه المقالة، سوف نستكشف المراحل الرئيسية في تطور الرؤية الحاسوبية. سوف ننتقل عبر بداياتها المبكرة، ونتعمق في التأثير التحويلي للشبكات العصبية الالتفافية (CNNs)، وندرس التطورات الهامة التي تلت ذلك.

البدايات الأولى للرؤية الحاسوبية

كما هو الحال مع مجالات الذكاء الاصطناعي الأخرى، بدأ التطور المبكر للرؤية الحاسوبية بأبحاث تأسيسية وعمل نظري. كان أحد المعالم الهامة هو عمل لورانس جي روبرتس الرائد في التعرف على الكائنات ثلاثية الأبعاد، والذي تم توثيقه في أطروحته "الإدراك الآلي للمواد الصلبة ثلاثية الأبعاد" في أوائل الستينيات. وضعت مساهماته الأساس للتطورات المستقبلية في هذا المجال.

الخوارزميات الأولى - اكتشاف الحواف

ركزت الأبحاث المبكرة في مجال الرؤية الحاسوبية على تقنيات معالجة الصور، مثل اكتشاف الحواف واستخلاص الميزات. كانت خوارزميات مثل عامل سوبل (Sobel operator)، الذي تم تطويره في أواخر الستينيات، من بين أوائل الخوارزميات التي اكتشفت الحواف عن طريق حساب تدرج كثافة الصورة.

الشكل 1. صورة توضح اكتشاف الحواف، حيث يظهر الجانب الأيسر الكائن الأصلي ويعرض الجانب الأيمن النسخة التي تم اكتشاف حوافها.

لعبت تقنيات مثل كاشفات حواف Sobel و Canny دورًا حاسمًا في تحديد الحدود داخل الصور، وهي ضرورية للتعرف على الكائنات وفهم المشاهد.

تعلم الآلة ورؤية الكمبيوتر

التعرف على الأنماط

في السبعينيات، ظهر التعرف على الأنماط كمجال رئيسي في رؤية الكمبيوتر. طور الباحثون طرقًا للتعرف على الأشكال والأنسجة والكائنات في الصور، مما مهد الطريق لمهام رؤية أكثر تعقيدًا.

الشكل 2. التعرف على الأنماط.

تضمنت إحدى الطرق المبكرة للتعرف على الأنماط مطابقة القوالب، حيث تتم مقارنة الصورة بمجموعة من القوالب للعثور على أفضل تطابق. كان هذا النهج محدودًا بسبب حساسيته للتغيرات في الحجم والتدوير والضوضاء.

الشكل 3. قالب على الجانب الأيسر موجود داخل الصورة اليمنى.

كانت أنظمة الرؤية الحاسوبية المبكرة مقيدة بالقدرة الحاسوبية المحدودة في ذلك الوقت. كانت أجهزة الكمبيوتر في الستينيات والسبعينيات ضخمة ومكلفة ولديها قدرات معالجة محدودة.

تغيير قواعد اللعبة باستخدام التعلم العميق

التعلم العميق والشبكات العصبية التلافيفية

شكّل التعلم العميق والشبكات العصبية التلافيفية (CNNs) لحظة محورية في مجال رؤية الكمبيوتر. لقد غيَّرت هذه التطورات بشكل كبير طريقة تفسير وتحليل أجهزة الكمبيوتر للبيانات المرئية، مما أتاح مجموعة واسعة من التطبيقات التي كان يُعتقد سابقًا أنها مستحيلة.

كيف تعمل الشبكات العصبونية التفافية (CNN)؟

الشكل 4. بنية شبكة عصبونية التفافية (CNN).

  1. طبقات الالتفاف: تستخدم شبكات CNN طبقات الالتفاف وهي نوع من نموذج التعلم العميق المصمم لمعالجة البيانات المنظمة الشبيهة بالشبكة، مثل الصور أو التسلسلات، عن طريق التعلم التلقائي للأنماط الهرمية. لمسح صورة باستخدام المرشحات أو النوى. تكتشف هذه المرشحات ميزات مختلفة مثل الحواف والقوام والألوان عن طريق الانزلاق عبر الصورة وحساب نواتج النقطة. يقوم كل مرشح بتنشيط أنماط معينة في الصورة، مما يمكن النموذج من تعلم الميزات الهرمية.
  2. دوال التنشيط: بعد الالتفاف، دوال التنشيط مثل ReLU (وحدة التقويم الخطية) وهي دالة تنشيط شائعة في التعلم العميق تخرج الإدخال مباشرة إذا كان موجبًا، وصفرًا بخلاف ذلك، مما يساعد الشبكات العصبية على تعلم العلاقات غير الخطية في البيانات بكفاءة. يساعد هذا الشبكة على تعلم الأنماط والتمثيلات المعقدة.
  3. طبقات التجميع (Pooling Layers): توفر طبقات التجميع عملية تقليل أبعاد (downsampling) تقلل من أبعاد خريطة الميزات، مما يساعد على استخلاص الميزات الأكثر صلة مع تقليل التكلفة الحسابية والتجاوز (overfitting).
  4. الطبقات المتصلة بالكامل: الطبقات النهائية من CNN هي طبقات متصلة بالكامل تفسر الميزات التي استخلصتها الطبقات الالتفافية والتجميعية لعمل تنبؤات. هذه الطبقات مماثلة لتلك الموجودة في الشبكات العصبونية التقليدية.

تطور نماذج الرؤية CNN

كانت رحلة نماذج الرؤية واسعة النطاق، وتضم بعضًا من أبرزها:

  • LeNet (1989): كانت LeNet واحدة من أوائل Architectures CNN، والتي استخدمت في المقام الأول للتعرف على الأرقام في الشيكات المكتوبة بخط اليد. وضع نجاحها الأساس لهياكل CNNs الأكثر تعقيدًا، مما يثبت إمكانات التعلم العميق في معالجة الصور.
  • AlexNet (2012): تفوق AlexNet بشكل كبير على النماذج الحالية في مسابقة ImageNet، مما يدل على قوة التعلم العميق. استخدم هذا النموذج تنشيطات ReLU والتسرب وتوسيع البيانات، ووضع معايير جديدة في تصنيف الصور وأثار اهتمامًا واسع النطاق بالشبكات العصبية التلافيفية (CNNs).
  • VGGNet (2014): باستخدام مرشحات التفافية أصغر (3x3)، حققت VGGNet نتائج مبهرة في مهام تصنيف الصور، مما عزز أهمية عمق الشبكة في تحقيق دقة أعلى.
  • ResNet (2015): عالجت ResNet مشكلة التدهور في الشبكات العميقة من خلال تقديم التعلم المتبقي. سمح هذا الابتكار بتدريب شبكات أعمق بكثير، مما أدى إلى أداء متطور في مختلف مهام رؤية الكمبيوتر.
  • YOLO (أنت تنظر مرة واحدة فقط): أحدثت YOLO ثورة في اكتشاف الكائنات من خلال تأطيرها كمشكلة انحدار واحدة، والتنبؤ مباشرة بالمربعات المحيطة واحتمالات الفئة من الصور الكاملة في تقييم واحد. مكّن هذا النهج اكتشاف الكائنات في الوقت الفعلي بسرعة ودقة غير مسبوقتين، مما جعله مناسبًا للتطبيقات التي تتطلب معالجة فورية، مثل القيادة الذاتية و المراقبة.

تطبيقات الرؤية الحاسوبية

الرعاية الصحية

استخدامات الرؤية الحاسوبية عديدة. على سبيل المثال، يتم استخدام نماذج الرؤية مثل Ultralytics YOLOv8 في التصوير الطبي للكشف عن أمراض مثل السرطان واعتلال الشبكية السكري. تقوم بتحليل الأشعة السينية والتصوير بالرنين المغناطيسي والأشعة المقطعية بدقة عالية، وتحديد التشوهات في وقت مبكر. تتيح هذه القدرة على الكشف المبكر التدخلات في الوقت المناسب وتحسين نتائج المرضى.

الشكل 5. الكشف عن أورام الدماغ باستخدام Ultralytics YOLOv8.

الحفاظ على البيئة

تساعد نماذج رؤية الحاسوب في مراقبة وحماية الأنواع المهددة بالانقراض من خلال تحليل الصور ومقاطع الفيديو من مواطن الحياة البرية. فهي تحدد وتتبع سلوك الحيوانات، وتوفر بيانات عن أعدادها وتحركاتها. تُعلم هذه التقنية استراتيجيات الحفظ وقرارات السياسة لحماية أنواع مثل النمور والفيلة.

بمساعدة رؤية الذكاء الاصطناعي، يمكن مراقبة التهديدات البيئية الأخرى مثل حرائق الغابات و إزالة الغابات، مما يضمن أوقات استجابة سريعة من السلطات المحلية.

الشكل 6. صورة التقطت بواسطة الأقمار الصناعية لحرائق الغابات.

التحديات والاتجاهات المستقبلية

على الرغم من أنها حققت بالفعل إنجازات كبيرة، إلا أنه نظرًا لتعقيدها الشديد وطبيعة تطويرها الصعبة، تواجه نماذج الرؤية العديد من التحديات التي تتطلب بحثًا مستمرًا وتطورات مستقبلية.

القابلية للتفسير والإيضاح

غالبًا ما يُنظر إلى نماذج الرؤية، وخاصةً نماذج التعلم العميق، على أنها "صناديق سوداء" ذات شفافية محدودة. ويرجع ذلك إلى أن هذه النماذج معقدة للغاية. إن الافتقار إلى القدرة على التفسير يعيق الثقة والمساءلة، خاصة في التطبيقات الهامة مثل الرعاية الصحية على سبيل المثال.

المتطلبات الحسابية

يتطلب تدريب ونشر نماذج الذكاء الاصطناعي الحديثة موارد حسابية كبيرة. هذا صحيح بشكل خاص بالنسبة لنماذج الرؤية، التي غالبًا ما تتطلب معالجة كميات كبيرة من بيانات الصور والفيديو. تزيد الصور ومقاطع الفيديو عالية الدقة، كونها من بين مدخلات التدريب الأكثر كثافة للبيانات، من العبء الحسابي. على سبيل المثال، يمكن أن تشغل صورة HD واحدة عدة ميغابايت من التخزين، مما يجعل عملية التدريب مكثفة الموارد وتستغرق وقتًا طويلاً.

وهذا يستلزم أجهزة قوية وخوارزميات رؤية حاسوبية مُحسَّنة للتعامل مع البيانات الواسعة والحسابات المعقدة التي ينطوي عليها تطوير نماذج رؤية فعالة. تُعد الأبحاث المتعلقة بالبنى الأكثر كفاءة، وضغط النماذج، ومُسرِّعات الأجهزة مثل وحدات معالجة الرسومات (GPUs) ووحدات معالجة Tensor (TPUs) مجالات رئيسية ستُطوِّر مستقبل نماذج الرؤية.

تهدف هذه التحسينات إلى تقليل المتطلبات الحسابية وزيادة كفاءة المعالجة. علاوة على ذلك، يمكن أن يؤدي الاستفادة من النماذج المدربة مسبقًا المتقدمة مثل YOLOv8 إلى تقليل الحاجة إلى تدريب مكثف بشكل كبير، مما يبسط عملية التطوير ويعزز الكفاءة.

مشهد دائم التطور

في الوقت الحاضر، تطبيقات نماذج الرؤية واسعة الانتشار، بدءًا من الرعاية الصحية، مثل الكشف عن الأورام، إلى الاستخدامات اليومية مثل مراقبة حركة المرور. جلبت هذه النماذج المتقدمة الابتكار إلى عدد لا يحصى من الصناعات من خلال توفير دقة وكفاءة وقدرات محسنة لم تكن متخيلة من قبل.

مع استمرار تقدم التكنولوجيا، تظل إمكانات نماذج الرؤية لابتكار وتحسين جوانب مختلفة من الحياة والصناعة بلا حدود. يؤكد هذا التطور المستمر على أهمية استمرار البحث والتطوير في مجال الرؤية الحاسوبية.

هل أنت مهتم بمعرفة مستقبل الذكاء الاصطناعي البصري؟ للحصول على مزيد من المعلومات حول أحدث التطورات، استكشف مستندات Ultralytics، وتحقق من مشاريعهم على Ultralytics GitHub و YOLOv8 GitHub. بالإضافة إلى ذلك، للحصول على رؤى حول تطبيقات الذكاء الاصطناعي في مختلف الصناعات، تقدم صفحات الحلول على السيارات ذاتية القيادة و التصنيع معلومات مفيدة بشكل خاص.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة