تاريخ الذكاء الاصطناعي البصري: من اكتشاف الحواف إلى YOLOv8

ما هي الرؤية الحاسوبية؟

تخيل أنك تدخل متجرًا حيث تحدد الكاميرا وجهك وتحلل حالتك المزاجية وتقترح منتجات مصممة خصيصًا لتفضيلاتك - كل ذلك في الوقت الفعلي. هذا ليس خيالًا علميًا ولكنه حقيقة واقعة بفضل نماذج الرؤية الحديثة. وفقًا لتقرير صادر عن Fortune Business Insight، بلغت قيمة سوق رؤية الكمبيوتر العالمي 20.31 مليار دولار أمريكي في عام 2023 ومن المتوقع أن ينمو من 25.41 مليار دولار أمريكي في عام 2024 إلى 175.72 مليار دولار أمريكي بحلول عام 2032، مما يعكس التطورات السريعة والاعتماد المتزايد لهذه التكنولوجيا في مختلف الصناعات.

يمكّن مجال الرؤية الحاسوبية أجهزة الكمبيوتر من detect وتحديد وتحليل الأجسام داخل الصور. وعلى غرار المجالات الأخرى ذات الصلة بالذكاء الاصطناعي، شهدت الرؤية الحاسوبية تطوراً سريعاً على مدى العقود القليلة الماضية، محققةً تقدماً ملحوظاً.

تاريخ الرؤية الحاسوبية واسع النطاق. في سنواتها الأولى، كانت نماذج الرؤية الحاسوبية قادرة على اكتشاف الأشكال والحواف البسيطة، وغالبًا ما كانت تقتصر على المهام الأساسية مثل التعرف على الأنماط الهندسية أو التمييز بين المناطق المضيئة والمظلمة. ومع ذلك، يمكن لنماذج اليوم أداء مهام معقدة مثل اكتشاف الأجسام في الوقت الفعلي، والتعرف على الوجوه، وحتى تفسير المشاعر من تعابير الوجه بدقة وكفاءة استثنائيتين. يسلط هذا التقدم الدراماتيكي الضوء على الخطوات المذهلة التي تم إحرازها في القدرة الحاسوبية، والتطور الخوارزمي، وتوافر كميات هائلة من البيانات للتدريب.

في هذه المقالة، سوف نستكشف المراحل الرئيسية في تطور الرؤية الحاسوبية. سوف ننتقل عبر بداياتها المبكرة، ونتعمق في التأثير التحويلي للشبكات العصبية الالتفافية (CNNs)، وندرس التطورات الهامة التي تلت ذلك.

البدايات الأولى للرؤية الحاسوبية

كما هو الحال مع مجالات الذكاء الاصطناعي الأخرى، بدأ التطور المبكر للرؤية الحاسوبية بأبحاث تأسيسية وعمل نظري. كان أحد المعالم الهامة هو عمل لورانس جي روبرتس الرائد في التعرف على الكائنات ثلاثية الأبعاد، والذي تم توثيقه في أطروحته "الإدراك الآلي للمواد الصلبة ثلاثية الأبعاد" في أوائل الستينيات. وضعت مساهماته الأساس للتطورات المستقبلية في هذا المجال.

الخوارزميات الأولى - اكتشاف الحواف

ركزت أبحاث الرؤية الحاسوبية المبكرة على تقنيات معالجة الصور، مثل اكتشاف الحواف واستخراج الملامح. كانت الخوارزميات مثل مشغل Sobel، الذي تم تطويره في أواخر الستينيات، من بين أوائل الخوارزميات التي detect الحواف عن طريق حساب تدرج شدة الصورة.

‍

الشكل 1. صورة توضح اكتشاف الحواف، حيث يظهر الجانب الأيسر الكائن الأصلي ويعرض الجانب الأيمن النسخة التي تم اكتشاف حوافها.

‍

لعبت تقنيات مثل كاشفات حواف Sobel و Canny دورًا حاسمًا في تحديد الحدود داخل الصور، وهي ضرورية للتعرف على الكائنات وفهم المشاهد.

تعلم الآلة ورؤية الكمبيوتر

التعرف على الأنماط

في السبعينيات، ظهر التعرف على الأنماط كمجال رئيسي في رؤية الكمبيوتر. طور الباحثون طرقًا للتعرف على الأشكال والأنسجة والكائنات في الصور، مما مهد الطريق لمهام رؤية أكثر تعقيدًا.

‍

تضمنت إحدى الطرق المبكرة للتعرف على الأنماط مطابقة القوالب، حيث تتم مقارنة الصورة بمجموعة من القوالب للعثور على أفضل تطابق. كان هذا النهج محدودًا بسبب حساسيته للتغيرات في الحجم والتدوير والضوضاء.

الشكل 3. قالب على الجانب الأيسر موجود داخل الصورة اليمنى.

‍

كانت أنظمة الرؤية الحاسوبية المبكرة مقيدة بالقدرة الحاسوبية المحدودة في ذلك الوقت. كانت أجهزة الكمبيوتر في الستينيات والسبعينيات ضخمة ومكلفة ولديها قدرات معالجة محدودة.

تغيير قواعد اللعبة باستخدام التعلم العميق

التعلم العميق والشبكات العصبية التلافيفية

شكّل التعلم العميق والشبكات العصبية التلافيفية (CNNs) لحظة محورية في مجال رؤية الكمبيوتر. لقد غيَّرت هذه التطورات بشكل كبير طريقة تفسير وتحليل أجهزة الكمبيوتر للبيانات المرئية، مما أتاح مجموعة واسعة من التطبيقات التي كان يُعتقد سابقًا أنها مستحيلة.

كيف تعمل الشبكات العصبونية التفافية (CNN)؟

الشكل 4. بنية شبكة عصبونية التفافية (CNN).

‍

الطبقات التلافيفية: تستخدم CNNs الطبقات التلافيفية وهي نوع من نماذج التعلّم العميق المصممة لمعالجة البيانات الشبيهة بالشبكة المهيكلة، مثل الصور أو التسلسلات، من خلال التعلم التلقائي للأنماط الهرمية لمسح الصورة باستخدام مرشحات أو نواة. detect هذه المرشحات ميزات مختلفة مثل الحواف والأنسجة والألوان من خلال الانزلاق عبر الصورة وحساب حاصل الضرب النقطي. يعمل كل مرشح على تنشيط أنماط محددة في الصورة، مما يمكّن النموذج من تعلم السمات الهرمية.
‍
دوال التنشيط: بعد الالتفاف، دوال التنشيط مثل ReLU (وحدة التقويم الخطية) وهي دالة تنشيط شائعة في التعلم العميق تخرج الإدخال مباشرة إذا كان موجبًا، وصفرًا بخلاف ذلك، مما يساعد الشبكات العصبية على تعلم العلاقات غير الخطية في البيانات بكفاءة. يساعد هذا الشبكة على تعلم الأنماط والتمثيلات المعقدة.
‍
طبقات التجميع (Pooling Layers): توفر طبقات التجميع عملية تقليل أبعاد (downsampling) تقلل من أبعاد خريطة الميزات، مما يساعد على استخلاص الميزات الأكثر صلة مع تقليل التكلفة الحسابية والتجاوز (overfitting).
‍
الطبقات المتصلة بالكامل: الطبقات النهائية من CNN هي طبقات متصلة بالكامل تفسر الميزات التي استخلصتها الطبقات الالتفافية والتجميعية لعمل تنبؤات. هذه الطبقات مماثلة لتلك الموجودة في الشبكات العصبونية التقليدية.

تطور نماذج الرؤية CNN

‍كانت رحلة نماذج الرؤية واسعة النطاق، وتضم بعضًا من أبرزها:

LeNet (1989): كانت LeNet واحدة من أوائل Architectures CNN، والتي استخدمت في المقام الأول للتعرف على الأرقام في الشيكات المكتوبة بخط اليد. وضع نجاحها الأساس لهياكل CNNs الأكثر تعقيدًا، مما يثبت إمكانات التعلم العميق في معالجة الصور.
‍
AlexNet (2012): تفوقت AlexNet بشكل كبير على النماذج الحالية في مسابقة ImageNet مما أظهر قوة التعلم العميق. استخدم هذا النموذج عمليات تنشيط ReLU، والتسرب، وزيادة البيانات، ووضع معايير جديدة في تصنيف الصور وأثار اهتمامًا واسعًا بنماذج الشبكات الشبكية المتكاملة.
‍
VGGNet (2014): باستخدام مرشحات التفافية أصغر (3x3)، حققت VGGNet نتائج مبهرة في مهام تصنيف الصور، مما عزز أهمية عمق الشبكة في تحقيق دقة أعلى.

ResNet (2015): عالجت ResNet مشكلة التدهور في الشبكات العميقة من خلال تقديم التعلم المتبقي. سمح هذا الابتكار بتدريب شبكات أعمق بكثير، مما أدى إلى أداء متطور في مختلف مهام رؤية الكمبيوتر.
‍
YOLO (أنت تنظر مرة واحدة فقط): أحدثت YOLO ثورة في اكتشاف الكائنات من خلال تأطيرها كمشكلة انحدار واحدة، والتنبؤ مباشرةً بالمربعات المحدودة واحتمالات الفئة من الصور الكاملة في تقييم واحد. مكّن هذا النهج من اكتشاف الأجسام في الوقت الفعلي بسرعة ودقة غير مسبوقة، مما يجعله مناسبًا للتطبيقات التي تتطلب معالجة فورية، مثل القيادة الذاتية والمراقبة.

تطبيقات الرؤية الحاسوبية

الرعاية الصحية

‍تتعدداستخدامات الرؤية الحاسوبية. على سبيل المثال، نماذج الرؤية مثل Ultralytics YOLOv8 في التصوير الطبي detect أمراض مثل السرطان واعتلال الشبكية السكري. فهي تقوم بتحليل الأشعة السينية والتصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب بدقة عالية، وتحدد التشوهات في وقت مبكر. تسمح هذه القدرة على الكشف المبكر بالتدخلات في الوقت المناسب وتحسين نتائج المرضى.

الشكل 5. الكشف عن أورام الدماغ باستخدام Ultralytics YOLOv8.

‍

الحفاظ على البيئة

تساعد نماذج الرؤية الحاسوبية في مراقبة وحماية الأنواع المهددة بالانقراض من خلال تحليل الصور ومقاطع الفيديو من موائل الحياة البرية. فهي تحدد track سلوك الحيوانات، وتوفر بيانات عن أعدادها وتحركاتها. وتفيد هذه التكنولوجيا في استراتيجيات الحفظ وقرارات السياسة العامة لحماية أنواع مثل النمور والفيلة.

بمساعدة رؤية الذكاء الاصطناعي، يمكن مراقبة التهديدات البيئية الأخرى مثل حرائق الغابات و إزالة الغابات، مما يضمن أوقات استجابة سريعة من السلطات المحلية.

الشكل 6. صورة التقطت بواسطة الأقمار الصناعية لحرائق الغابات.

‍

التحديات والاتجاهات المستقبلية

على الرغم من أنها حققت بالفعل إنجازات كبيرة، إلا أنه نظرًا لتعقيدها الشديد وطبيعة تطويرها الصعبة، تواجه نماذج الرؤية العديد من التحديات التي تتطلب بحثًا مستمرًا وتطورات مستقبلية.

القابلية للتفسير والإيضاح

غالبًا ما يُنظر إلى نماذج الرؤية، وخاصةً نماذج التعلم العميق، على أنها "صناديق سوداء" ذات شفافية محدودة. ويرجع ذلك إلى أن هذه النماذج معقدة للغاية. إن الافتقار إلى القدرة على التفسير يعيق الثقة والمساءلة، خاصة في التطبيقات الهامة مثل الرعاية الصحية على سبيل المثال.

المتطلبات الحسابية

يتطلب تدريب ونشر نماذج الذكاء الاصطناعي الحديثة موارد حسابية كبيرة. هذا صحيح بشكل خاص بالنسبة لنماذج الرؤية، التي غالبًا ما تتطلب معالجة كميات كبيرة من بيانات الصور والفيديو. تزيد الصور ومقاطع الفيديو عالية الدقة، كونها من بين مدخلات التدريب الأكثر كثافة للبيانات، من العبء الحسابي. على سبيل المثال، يمكن أن تشغل صورة HD واحدة عدة ميغابايت من التخزين، مما يجعل عملية التدريب مكثفة الموارد وتستغرق وقتًا طويلاً.

وهذا يستلزم أجهزة قوية وخوارزميات رؤية حاسوبية مُحسَّنة للتعامل مع البيانات الواسعة والحسابات المعقدة التي ينطوي عليها تطوير نماذج رؤية فعالة. تُعد الأبحاث المتعلقة بالبنى الأكثر كفاءة، وضغط النماذج، ومُسرِّعات الأجهزة مثل وحدات معالجة الرسومات (GPUs) ووحدات معالجة Tensor (TPUs) مجالات رئيسية ستُطوِّر مستقبل نماذج الرؤية.

تهدف هذه التحسينات إلى تقليل المتطلبات الحسابية وزيادة كفاءة المعالجة. علاوة على ذلك، فإن الاستفادة من النماذج المتقدمة المدربة مسبقًا مثل YOLOv8 يمكن أن يقلل بشكل كبير من الحاجة إلى التدريب المكثف، مما يؤدي إلى تبسيط عملية التطوير وتعزيز الكفاءة.

مشهد دائم التطور

في الوقت الحاضر، تطبيقات نماذج الرؤية واسعة الانتشار، بدءًا من الرعاية الصحية، مثل الكشف عن الأورام، إلى الاستخدامات اليومية مثل مراقبة حركة المرور. جلبت هذه النماذج المتقدمة الابتكار إلى عدد لا يحصى من الصناعات من خلال توفير دقة وكفاءة وقدرات محسنة لم تكن متخيلة من قبل.

مع استمرار تقدم التكنولوجيا، تظل إمكانات نماذج الرؤية لابتكار وتحسين جوانب مختلفة من الحياة والصناعة بلا حدود. يؤكد هذا التطور المستمر على أهمية استمرار البحث والتطوير في مجال الرؤية الحاسوبية.

هل لديك فضول حول مستقبل الذكاء الاصطناعي البصري؟ لمزيد من المعلومات حول أحدث التطورات، يمكنك استكشاف مستنداتUltralytics والاطلاع على مشاريعها على GitHubUltralytics و YOLOv8 GitHub. بالإضافة إلى ذلك، للاطلاع على رؤى حول تطبيقات الذكاء الاصطناعي في مختلف الصناعات، تقدم صفحات الحلول الخاصة بالسيارات ذاتية القيادة والتصنيع معلومات مفيدة بشكل خاص.

تاريخ نماذج الرؤية

ما هي الرؤية الحاسوبية؟

البدايات الأولى للرؤية الحاسوبية

الخوارزميات الأولى - اكتشاف الحواف