تعرّف على كيفية عمل مطابقة الصور في الذكاء الاصطناعي البصري واستكشف التقنيات الأساسية التي تساعد الآلات على detect البيانات المرئية ومقارنتها وفهمها.
تعرّف على كيفية عمل مطابقة الصور في الذكاء الاصطناعي البصري واستكشف التقنيات الأساسية التي تساعد الآلات على detect البيانات المرئية ومقارنتها وفهمها.
عندما تنظر إلى صورتين لنفس الشيء، مثل صورة لوحة وصورة فوتوغرافية لسيارة، من السهل ملاحظة القواسم المشتركة بينهما. لكن بالنسبة للآلات، لا يكون الأمر بهذه البساطة.
ولإجراء مثل هذه المقارنات، تعتمد الآلات على الرؤية الحاسوبية، وهي فرع من فروع الذكاء الاصطناعي (AI) يساعدها على تفسير المعلومات المرئية وفهمها. تمكّن الرؤية الحاسوبية الأنظمة من detect الأشياء وفهم المشاهد واستخراج الأنماط من الصور أو مقاطع الفيديو.
على وجه الخصوص، تتجاوز بعض المهام البصرية تحليل صورة واحدة. فهي تتضمن مقارنة الصور للعثور على أوجه التشابه أو تحديد الاختلافات أو track التغيرات بمرور الوقت.
يشمل الذكاء الاصطناعي البصري مجموعة واسعة من التقنيات، وتركز إحدى القدرات الأساسية، والمعروفة باسم مطابقة الصور، على تحديد أوجه التشابه بين الصور، حتى عندما تختلف الإضاءة أو الزوايا أو الخلفيات. يمكن استخدام هذه التقنية في تطبيقات مختلفة، بما في ذلك الروبوتات والواقع المعزز ورسم الخرائط الجغرافية.
في هذه المقالة، سنستكشف ما هي مطابقة الصور، وتقنياتها الأساسية، وبعض تطبيقاتها الواقعية. لنبدأ!
تتيح مطابقة الصور لنظام الكمبيوتر إمكانية فهم ما إذا كانت صورتان تحتويان على محتوى متشابه. يمكن للبشر القيام بذلك بشكل حدسي من خلال ملاحظة الأشكال والألوان والأنماط.
من ناحية أخرى، تعتمد أجهزة الكمبيوتر على البيانات الرقمية. فهي تحلل الصور من خلال فحص كل بكسل، وهو أصغر وحدة في الصورة الرقمية.
يتم تخزين كل صورة على شكل شبكة من وحدات البكسل، ويحتوي كل بكسل عادةً على قيم للأحمر والأخضر والأزرق (RGB). يمكن أن تتغير هذه القيم عند تدوير الصورة أو تغيير حجمها أو عرضها من زاوية مختلفة أو التقاطها في ظروف إضاءة مختلفة. بسبب هذه الاختلافات، غالباً ما تكون مقارنة الصور بكسل بكسل غير موثوقة.
لجعل المقارنات أكثر اتساقًا، تركز مطابقة الصور على السمات المحلية أو الزوايا والحواف والمناطق ذات التركيبات التي تميل إلى البقاء مستقرة حتى عندما تتغير الصورة قليلاً. من خلال الكشف عن هذه الميزات، أو النقاط الرئيسية، عبر صور متعددة، يمكن للنظام مقارنتها بدقة أكبر بكثير.
تُستخدم هذه العملية على نطاق واسع في حالات الاستخدام مثل الملاحة والتوطين والواقع المعزز ورسم الخرائط وإعادة البناء ثلاثي الأبعاد والبحث البصري. عندما تحدد الأنظمة نفس النقاط عبر صور مختلفة أو إطارات متعددة، يمكنها track الحركة وفهم بنية المشهد واتخاذ قرارات موثوقة في البيئات الديناميكية.

تتضمن مطابقة الصور عدة خطوات رئيسية تساعد الأنظمة على تحديد ومقارنة المناطق المتشابهة داخل الصور. تعمل كل خطوة على تحسين الدقة والاتساق والمتانة في ظل ظروف مختلفة.
إليك نظرة تفصيلية على كيفية عمل مطابقة الصور خطوة بخطوة:

قبل أن نستكشف التطبيقات الواقعية لمطابقة الصور، دعونا أولاً نلقي نظرة فاحصة على تقنيات مطابقة الصور المستخدمة في أنظمة الرؤية الحاسوبية.
تعد مطابقة القالب واحدة من أكثر طرق مطابقة الصور وضوحًا. وهي تعتبر بشكل عام تقنية معالجة للصور أكثر من كونها طريقة حديثة للرؤية الحاسوبية لأنها تعتمد على مقارنات مباشرة بين وحدات البكسل ولا تستخرج ميزات بصرية أعمق.
يتم استخدامه لتحديد موقع صورة مرجعية أصغر، أو قالب، داخل مشهد أكبر. يعمل باستخدام خوارزمية تمرر قالباً عبر الصورة الرئيسية وتحسب درجة تشابه في كل موضع لقياس مدى تطابق المنطقتين. تعتبر المنطقة التي تحصل على أعلى الدرجات أفضل تطابق، مما يشير إلى المكان الذي من المرجح أن يظهر فيه الجسم في المشهد.

تعمل هذه التقنية بشكل جيد عندما يظل مقياس الجسم وتدويره وإضاءته ثابتًا، مما يجعلها خيارًا جيدًا للبيئات الخاضعة للرقابة أو المقارنات الأساسية. ومع ذلك، ينخفض أداؤها عندما يبدو الجسم مختلفًا عن القالب، مثل عندما يتغير حجمه، أو عندما يتم تدويره، أو عندما يكون محجوبًا جزئيًا، أو عندما يظهر على خلفية صاخبة أو معقدة.
قبل أن يتم اعتماد التعلم العميق على نطاق واسع، كانت مطابقة الصور تعتمد في الغالب على خوارزميات الرؤية الحاسوبية الكلاسيكية التي تكتشف النقاط الرئيسية المميزة في الصورة. وبدلاً من مقارنة كل بكسل، تقوم هذه الأساليب بتحليل تدرجات الصورة أو التغيرات في الشدة لإبراز الزوايا والحواف والمناطق ذات النسيج المميز.
ثم يتم تمثيل كل نقطة رئيسية مكتشفة باستخدام ملخص رقمي مضغوط يسمى الواصف. عند المقارنة بين صورتين، يقوم المُطابق بتقييم هذه الواصفات للعثور على الأزواج الأكثر تشابهًا.
تشير درجة التشابه القوية عادةً إلى ظهور نفس النقطة المادية في كلتا الصورتين. يستخدم المطابقون أيضًا مقاييس محددة للمسافة أو قواعد تسجيل النقاط للحكم على مدى تقارب السمات، مما يحسن الموثوقية الإجمالية.
فيما يلي بعض خوارزميات الرؤية الحاسوبية الكلاسيكية الرئيسية المستخدمة لمطابقة الصور:

على عكس الأساليب الكلاسيكية التي تعتمد على قواعد محددة، يتعلم التعلم العميق تلقائياً الميزات من مجموعات البيانات الكبيرة، وهي مجموعات من البيانات المرئية التي تتعلم نماذج الذكاء الاصطناعي الأنماط منها. تعمل هذه النماذج عادةً على وحدات معالجة الرسومات (GPU)، والتي توفر القدرة الحاسوبية العالية اللازمة لمعالجة مجموعات كبيرة من الصور وتدريب الشبكات العصبية المعقدة بكفاءة.
يمنح هذا نماذج الذكاء الاصطناعي القدرة على التعامل مع التغييرات في العالم الحقيقي مثل الإضاءة وزوايا الكاميرا والانسدادات. تجمع بعض النماذج أيضًا جميع الخطوات في سير عمل واحد، مما يدعم الأداء القوي في الظروف الصعبة.
فيما يلي بعض الأساليب القائمة على التعلم العميق لاستخراج ميزات الصور ومطابقتها:
الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل مطابقة الصور، دعنا نلقي نظرة على بعض التطبيقات الواقعية التي تلعب فيها دورًا مهمًا.
غالبًا ما تعمل الروبوتات في بيئات مزدحمة ومتغيرة، حيث تحتاج إلى فهم الأشياء الموجودة وكيفية وضعها. يمكن أن تساعد مطابقة الصور الروبوتات على فهم الأجسام التي تراها من خلال مقارنتها بالصور المخزنة أو الصور المرجعية. وهذا يجعل من السهل على هذه الروبوتات التعرف على الأجسام track حركتها والتكيف حتى عندما تتغير الإضاءة أو زوايا الكاميرا.
على سبيل المثال، في المستودعات، يمكن لنظام الالتقاط والوضع الآلي استخدام مطابقة الصور لتحديد العناصر المختلفة والتعامل معها. يلتقط الروبوت أولاً غرضاً ما، ثم يقارن صورته مع عينات مرجعية لتحديده.

بمجرد العثور على التطابق، يعرف الروبوت كيفية فرزها أو وضعها بشكل صحيح. يسمح هذا النهج للروبوتات بالتعرف على كل من الأشياء المألوفة والجديدة دون إعادة تدريب النظام بأكمله. كما أنه يساعدها على اتخاذ قرارات أفضل في الوقت الحقيقي، مثل تنظيم الرفوف أو تجميع الأجزاء أو إعادة ترتيب العناصر.
في مجالات مثل رسم الخرائط بالطائرات بدون طيار والواقع الافتراضي وفحص المباني، غالبًا ما تحتاج الأنظمة إلى إعادة بناء نموذج ثلاثي الأبعاد من عدة صور ثنائية الأبعاد. وللقيام بذلك، تعتمد هذه الأنظمة على مطابقة الصور لتحديد النقاط الرئيسية المشتركة، مثل الزوايا أو المناطق المزخرفة، التي تظهر في عدة صور.
تساعد هذه النقاط المشتركة النظام على فهم كيفية ارتباط الصور ببعضها البعض في الفضاء ثلاثي الأبعاد. وترتبط هذه الفكرة ارتباطاً وثيقاً بتقنية "البنية من الحركة" (SfM)، وهي تقنية تقوم ببناء هياكل ثلاثية الأبعاد من خلال تحديد ومطابقة النقاط الرئيسية عبر الصور الملتقطة من وجهات نظر مختلفة.
إذا لم تكن المطابقة دقيقة، يمكن أن يظهر النموذج ثلاثي الأبعاد الناتج مشوهاً أو غير مكتمل. لهذا السبب، يعمل الباحثون على تحسين موثوقية مطابقة الصور لإعادة البناء ثلاثي الأبعاد، وقد أظهرت التطورات الأخيرة نتائج واعدة.
أحد الأمثلة المثيرة للاهتمام هو HashMatch، وهي خوارزمية مطابقة صور أسرع وأكثر قوة. تقوم HashMatch بتحويل تفاصيل الصورة إلى أنماط مضغوطة تسمى رموز التجزئة، مما يسهل تحديد التطابقات الصحيحة وإزالة القيم المتطرفة، حتى عندما تختلف الإضاءة أو وجهات النظر.
عند اختبارها على مجموعات بيانات واسعة النطاق، أنتجت HashMatch نماذج إعادة بناء ثلاثية الأبعاد أكثر نظافة وواقعية مع أخطاء محاذاة أقل. هذا يجعلها مفيدة بشكل خاص لتطبيقات مثل رسم الخرائط بالطائرات بدون طيار، وأنظمة الواقع المعزز، والحفاظ على التراث الثقافي، حيث تكون الدقة أمرًا بالغ الأهمية.
عندما يتعلق الأمر بالواقع المُعزَّز (AR)، غالبًا ما يمثل الحفاظ على توافق الأجسام الافتراضية مع العالم الحقيقي تحديًا. يمكن أن تتغير البيئات الخارجية باستمرار حسب الظروف البيئية، مثل ضوء الشمس والطقس. يمكن للاختلافات الطفيفة في العالم الحقيقي أن تجعل العناصر الافتراضية تبدو غير مستقرة أو في غير مكانها قليلاً.
ولحل هذه المشكلة، تستخدم أنظمة الواقع المعزز مطابقة الصور لتفسير محيطها. من خلال مقارنة إطارات الكاميرا الحية مع الصور المرجعية المخزنة، يمكنها فهم مكان المستخدم وكيف تغير المشهد.

على سبيل المثال، في دراسة شملت التدريب على الواقع المعزز في الهواء الطلق على الطراز العسكري باستخدام نظارات الواقع الممتد، استخدم الباحثون تقنية SIFT وغيرها من الأساليب القائمة على الميزات لمطابقة التفاصيل المرئية بين الصور الحقيقية والمرجعية. حافظت المطابقات الدقيقة على محاذاة العناصر الافتراضية بشكل صحيح مع العالم الحقيقي، حتى عندما يتحرك المستخدم بسرعة أو عندما تتغير الإضاءة.
تُعد مطابقة الصور مكونًا أساسيًا في الرؤية الحاسوبية، مما يمكّن الأنظمة من فهم كيفية ارتباط الصور المختلفة ببعضها البعض أو كيفية تغير المشهد بمرور الوقت. وهي تلعب دوراً حاسماً في الروبوتات، والواقع المعزز، وإعادة البناء ثلاثي الأبعاد، والملاحة الذاتية، والعديد من التطبيقات الأخرى في العالم الحقيقي حيث الدقة والثبات ضروريان.
مع نماذج الذكاء الاصطناعي المتقدمة مثل SuperPoint و LoFTR، أصبحت أنظمة اليوم أكثر قوة بكثير من الأساليب السابقة. مع استمرار تقدم تقنيات التعلّم الآلي ووحدات الرؤية المتخصصة والشبكات العصبية ومجموعات البيانات، من المرجح أن تصبح مطابقة الصور أسرع وأكثر دقة وقابلية للتكيف.
انضم إلى مجتمعنا المتنامي واستكشف مستودع GitHub للحصول على موارد الذكاء الاصطناعي العملية. للبناء باستخدام Vision AI اليوم، استكشف خيارات الترخيص لدينا. تعرّف على كيفية قيام الذكاء الاصطناعي في الزراعة بتحويل الزراعة وكيف يقوم الذكاء الاصطناعي في Vision AI في مجال الرعاية الصحية بتشكيل المستقبل من خلال زيارة صفحات الحلول الخاصة بنا.