Yolo فيجن شنتشن
شنتشن
انضم الآن

ما هي مطابقة الصور في الذكاء الاصطناعي للرؤية؟ مقدمة سريعة

أبيرامي فينا

قراءة لمدة 7 دقائق

25 نوفمبر 2025

تعرّف على كيفية عمل مطابقة الصور في الذكاء الاصطناعي البصري واستكشف التقنيات الأساسية التي تساعد الآلات على detect البيانات المرئية ومقارنتها وفهمها.

عندما تنظر إلى صورتين لنفس الشيء، مثل صورة لوحة وصورة فوتوغرافية لسيارة، من السهل ملاحظة القواسم المشتركة بينهما. لكن بالنسبة للآلات، لا يكون الأمر بهذه البساطة.

ولإجراء مثل هذه المقارنات، تعتمد الآلات على الرؤية الحاسوبية، وهي فرع من فروع الذكاء الاصطناعي (AI) يساعدها على تفسير المعلومات المرئية وفهمها. تمكّن الرؤية الحاسوبية الأنظمة من detect الأشياء وفهم المشاهد واستخراج الأنماط من الصور أو مقاطع الفيديو. 

على وجه الخصوص، تتجاوز بعض المهام البصرية تحليل صورة واحدة. فهي تتضمن مقارنة الصور للعثور على أوجه التشابه أو تحديد الاختلافات أو track التغيرات بمرور الوقت.

يشمل الذكاء الاصطناعي البصري مجموعة واسعة من التقنيات، وتركز إحدى القدرات الأساسية، والمعروفة باسم مطابقة الصور، على تحديد أوجه التشابه بين الصور، حتى عندما تختلف الإضاءة أو الزوايا أو الخلفيات. يمكن استخدام هذه التقنية في تطبيقات مختلفة، بما في ذلك الروبوتات والواقع المعزز ورسم الخرائط الجغرافية. 

في هذه المقالة، سنستكشف ما هي مطابقة الصور، وتقنياتها الأساسية، وبعض تطبيقاتها الواقعية. لنبدأ! 

ما هي مطابقة الصور؟

تتيح مطابقة الصور لنظام الكمبيوتر إمكانية فهم ما إذا كانت صورتان تحتويان على محتوى متشابه. يمكن للبشر القيام بذلك بشكل حدسي من خلال ملاحظة الأشكال والألوان والأنماط.

من ناحية أخرى، تعتمد أجهزة الكمبيوتر على البيانات الرقمية. فهي تحلل الصور من خلال فحص كل بكسل، وهو أصغر وحدة في الصورة الرقمية.

يتم تخزين كل صورة على شكل شبكة من وحدات البكسل، ويحتوي كل بكسل عادةً على قيم للأحمر والأخضر والأزرق (RGB). يمكن أن تتغير هذه القيم عند تدوير الصورة أو تغيير حجمها أو عرضها من زاوية مختلفة أو التقاطها في ظروف إضاءة مختلفة. بسبب هذه الاختلافات، غالباً ما تكون مقارنة الصور بكسل بكسل غير موثوقة.

لجعل المقارنات أكثر اتساقًا، تركز مطابقة الصور على السمات المحلية أو الزوايا والحواف والمناطق ذات التركيبات التي تميل إلى البقاء مستقرة حتى عندما تتغير الصورة قليلاً. من خلال الكشف عن هذه الميزات، أو النقاط الرئيسية، عبر صور متعددة، يمكن للنظام مقارنتها بدقة أكبر بكثير.

تُستخدم هذه العملية على نطاق واسع في حالات الاستخدام مثل الملاحة والتوطين والواقع المعزز ورسم الخرائط وإعادة البناء ثلاثي الأبعاد والبحث البصري. عندما تحدد الأنظمة نفس النقاط عبر صور مختلفة أو إطارات متعددة، يمكنها track الحركة وفهم بنية المشهد واتخاذ قرارات موثوقة في البيئات الديناميكية.

الشكل 1. مثال على مطابقة صورة السيارة حيث يتم تحديد نقاط رئيسية متشابهة.(المصدر)

فهم كيفية عمل مطابقة الصور

تتضمن مطابقة الصور عدة خطوات رئيسية تساعد الأنظمة على تحديد ومقارنة المناطق المتشابهة داخل الصور. تعمل كل خطوة على تحسين الدقة والاتساق والمتانة في ظل ظروف مختلفة.

إليك نظرة تفصيلية على كيفية عمل مطابقة الصور خطوة بخطوة:

  • اكتشاف الميزات: يحدد النظام أولاً النقاط الرئيسية المميزة في الصورة التي تظل ثابتة حتى عند تغير الإضاءة أو المقياس أو زاوية الرؤية. وهي تسلط الضوء على مناطق مثل الزوايا أو الحواف أو المناطق البارزة بصرياً.

  • وصف الميزة: يتم بعد ذلك تحويل كل نقطة رئيسية إلى واصف، وهو عبارة عن متجه رقمي مضغوط يلتقط النمط المرئي حول تلك النقطة. توفر هذه الواصفات طريقة موثوقة لمقارنة الميزات بين الصور المختلفة.

  • مطابقة السمات: تتم مقارنة الواصفات من صورتين باستخدام خوارزميات المطابقة التي تحسب مدى تشابههما. تعمل هذه الخطوة على إقران النقاط الرئيسية التي تبدو متطابقة وتصفية التطابقات الأضعف أو غير الموثوق بها.

  • التحقق الهندسي: وأخيراً، يتحقق النظام مما إذا كانت النقاط الرئيسية المطابقة تشكل علاقة هندسية واقعية. يقوم النظام بإزالة التطابقات غير الصحيحة (تُسمى القيم المتطرفة) باستخدام طريقة تُعرف باسم RANSAC (توافق العينات العشوائية)، والتي تضمن الاحتفاظ بأزواج النقاط الموثوقة فقط. بمجرد تحديد التطابقات الجيدة، يقوم النظام بتقدير التحويل الذي يربط بين الصورتين على أفضل وجه. وغالبًا ما يكون هذا التحويل عبارة عن تحويلات ذات طبيعة انسيابية، والتي تتكيف مع التغييرات مثل القياس والتدوير والتحويل، أو التحويلات المتجانسة التي يمكنها أيضًا التعامل مع تغييرات المنظور. يسمح استخدام هذه التحويلات للنظام بمحاذاة الصور بدقة، حتى عندما يتم التقاطها من وجهات نظر مختلفة قليلاً.
الشكل 2. (أ) استخراج نقطة الميزة و(ب) مطابقة الميزة.(المصدر)

التقنيات الأساسية المستخدمة في مطابقة الصور

قبل أن نستكشف التطبيقات الواقعية لمطابقة الصور، دعونا أولاً نلقي نظرة فاحصة على تقنيات مطابقة الصور المستخدمة في أنظمة الرؤية الحاسوبية.

مطابقة الصور القائمة على مطابقة الصور القائمة على القالب

تعد مطابقة القالب واحدة من أكثر طرق مطابقة الصور وضوحًا. وهي تعتبر بشكل عام تقنية معالجة للصور أكثر من كونها طريقة حديثة للرؤية الحاسوبية لأنها تعتمد على مقارنات مباشرة بين وحدات البكسل ولا تستخرج ميزات بصرية أعمق.

يتم استخدامه لتحديد موقع صورة مرجعية أصغر، أو قالب، داخل مشهد أكبر. يعمل باستخدام خوارزمية تمرر قالباً عبر الصورة الرئيسية وتحسب درجة تشابه في كل موضع لقياس مدى تطابق المنطقتين. تعتبر المنطقة التي تحصل على أعلى الدرجات أفضل تطابق، مما يشير إلى المكان الذي من المرجح أن يظهر فيه الجسم في المشهد.

الشكل 3. نظرة على استخدام مطابقة القالب.(المصدر)

تعمل هذه التقنية بشكل جيد عندما يظل مقياس الجسم وتدويره وإضاءته ثابتًا، مما يجعلها خيارًا جيدًا للبيئات الخاضعة للرقابة أو المقارنات الأساسية. ومع ذلك، ينخفض أداؤها عندما يبدو الجسم مختلفًا عن القالب، مثل عندما يتغير حجمه، أو عندما يتم تدويره، أو عندما يكون محجوبًا جزئيًا، أو عندما يظهر على خلفية صاخبة أو معقدة.

التقنيات الكلاسيكية القائمة على السمات لمطابقة الصور

قبل أن يتم اعتماد التعلم العميق على نطاق واسع، كانت مطابقة الصور تعتمد في الغالب على خوارزميات الرؤية الحاسوبية الكلاسيكية التي تكتشف النقاط الرئيسية المميزة في الصورة. وبدلاً من مقارنة كل بكسل، تقوم هذه الأساليب بتحليل تدرجات الصورة أو التغيرات في الشدة لإبراز الزوايا والحواف والمناطق ذات النسيج المميز. 

ثم يتم تمثيل كل نقطة رئيسية مكتشفة باستخدام ملخص رقمي مضغوط يسمى الواصف. عند المقارنة بين صورتين، يقوم المُطابق بتقييم هذه الواصفات للعثور على الأزواج الأكثر تشابهًا. 

تشير درجة التشابه القوية عادةً إلى ظهور نفس النقطة المادية في كلتا الصورتين. يستخدم المطابقون أيضًا مقاييس محددة للمسافة أو قواعد تسجيل النقاط للحكم على مدى تقارب السمات، مما يحسن الموثوقية الإجمالية.

فيما يلي بعض خوارزميات الرؤية الحاسوبية الكلاسيكية الرئيسية المستخدمة لمطابقة الصور:

  • SIFT (تحويل الميزات المتغير المقياس): وهو يحدد النقاط الرئيسية من خلال تحليل تدرجات كثافة الصورة، مما يسمح لها بالبقاء قابلة للتمييز عند تكبير الصورة أو تصغيرها أو تدويرها.

  • SURF (الميزات القوية السريعة): تشبه هذه الخوارزمية خوارزمية SIFT ولكنها مُحسّنة للسرعة. تستخدم عمليات تقريب سريعة للعمليات القائمة على التدرج، مما يجعلها مناسبة للتطبيقات التي تتطلب أوقات استجابة سريعة.
  • ORB (FAST الموجهة و BRIEF المدورة): يجمع بين خوارزميتين تدعى FAST و BRIEF. تعثر FAST بسرعة على نقاط تشبه الزوايا في الصورة، بينما تنشئ BRIEF وصفًا مضغوطًا لكل نقطة بحيث يمكن مطابقتها عبر الصور. تعمل ORB أيضًا على تحسين كلتا الخطوتين من خلال إضافة معالجة الدوران، مما يجعلها سريعة وموثوقة.
الشكل 4. نقاط ميزة SURF المستخرجة والمطابقة بين صورتين.(المصدر)

التقنيات القائمة على التعلم العميق لمطابقة الصور

على عكس الأساليب الكلاسيكية التي تعتمد على قواعد محددة، يتعلم التعلم العميق تلقائياً الميزات من مجموعات البيانات الكبيرة، وهي مجموعات من البيانات المرئية التي تتعلم نماذج الذكاء الاصطناعي الأنماط منها. تعمل هذه النماذج عادةً على وحدات معالجة الرسومات (GPU)، والتي توفر القدرة الحاسوبية العالية اللازمة لمعالجة مجموعات كبيرة من الصور وتدريب الشبكات العصبية المعقدة بكفاءة.

يمنح هذا نماذج الذكاء الاصطناعي القدرة على التعامل مع التغييرات في العالم الحقيقي مثل الإضاءة وزوايا الكاميرا والانسدادات. تجمع بعض النماذج أيضًا جميع الخطوات في سير عمل واحد، مما يدعم الأداء القوي في الظروف الصعبة.

فيما يلي بعض الأساليب القائمة على التعلم العميق لاستخراج ميزات الصور ومطابقتها:

  • استخراج السمات القائمة على CNN: تتعلم هذه النماذج تلقائيًا الأنماط المرئية الرئيسية من مجموعات البيانات الكبيرة. فهي تتعرف على السمات التي من غير المرجح أن تتغير، مما يجعلها موثوقة لمطابقة الأشياء عبر مشاهد مختلفة.
  • المطابقة المستندة إلى التضمين: بدلاً من المقارنة المباشرة بين وحدات البكسل، تقوم هذه الطريقة بتحويل الصور إلى تمثيلات رقمية مضغوطة تُعرف باسم التضمينات. ثم يقوم المطابق بمقارنة هذه التضمينات للعثور على صور متشابهة. وتتبع هذا النهج نماذج مثل FaceNet، التي تنشئ تضمينات للتعرف على الوجوه ومقارنتها، و CLIP، التي تقوم بتعيين الصور والنصوص في مساحة مشتركة لمهام مثل البحث عن الصور والمطابقة الدلالية.
  • خطوط أنابيب مطابقة شاملة: غالبًا ما تجمع أنظمة التعلم العميق المتطورة بين اكتشاف النقاط الرئيسية والوصف والمطابقة في سير عمل موحد. تتعلم نماذج مثل SuperPoint وD2-Net كلاً من النقاط الرئيسية والواصفات مباشرةً من خرائط سمات CNN، بينما تعمل SuperGlue كمطابقة مكتسبة تزاوج بين هذه الواصفات بشكل أكثر موثوقية من الطرق التقليدية. تُنشئ هذه المكونات معًا خط أنابيب متكامل يوفر دقة أعلى ومتانة أكبر في الظروف الصعبة مقارنةً بالنهج التقليدية القائمة على السمات.
  • المطابقة المستندة إلى المحول: تستخدم هذه الطريقة آليات الانتباه لربط المناطق المتناظرة عبر صورتين، مما يسمح لها بمحاذاة البقع حتى في ظل تغيرات قوية في المنظر أو الإضاءة أو النسيج. تحقق نماذج مثل LoFTR (محول الميزات المحلي) دقة أعلى بكثير لأن المجال الاستقبالي العالمي للمحول يتيح مطابقة موثوقة في المناطق منخفضة الملمس أو الضبابية أو المتكررة حيث تفشل أجهزة الكشف التقليدية. يُنتج LoFTR مطابقات شبه كثيفة وعالية الثقة ويتفوق في الأداء على الأساليب السابقة المتطورة بهامش كبير على كل من المعايير الداخلية والخارجية.
  • النماذج التي تركز على الكفاءة: تهدف النماذج الأحدث لمطابقة الصور إلى تقديم دقة عالية مع العمل بشكل أسرع. تم تصميم نماذج مثل LightGlue لتعمل بكفاءة على الأجهزة ذات القدرة الحاسوبية المحدودة مع الحفاظ على جودة مطابقة جيدة.

التطبيقات الواقعية لمطابقة الصور في العالم الحقيقي

الآن بعد أن أصبح لدينا فهم أفضل لكيفية عمل مطابقة الصور، دعنا نلقي نظرة على بعض التطبيقات الواقعية التي تلعب فيها دورًا مهمًا.

روبوتات أكثر ذكاءً مدفوعة بمطابقة الصور

غالبًا ما تعمل الروبوتات في بيئات مزدحمة ومتغيرة، حيث تحتاج إلى فهم الأشياء الموجودة وكيفية وضعها. يمكن أن تساعد مطابقة الصور الروبوتات على فهم الأجسام التي تراها من خلال مقارنتها بالصور المخزنة أو الصور المرجعية. وهذا يجعل من السهل على هذه الروبوتات التعرف على الأجسام track حركتها والتكيف حتى عندما تتغير الإضاءة أو زوايا الكاميرا.

على سبيل المثال، في المستودعات، يمكن لنظام الالتقاط والوضع الآلي استخدام مطابقة الصور لتحديد العناصر المختلفة والتعامل معها. يلتقط الروبوت أولاً غرضاً ما، ثم يقارن صورته مع عينات مرجعية لتحديده. 

الشكل 5. يتعرف الروبوت على الأجسام ويلتقطها من خلال مطابقتها مع الصور المرجعية.(المصدر)

بمجرد العثور على التطابق، يعرف الروبوت كيفية فرزها أو وضعها بشكل صحيح. يسمح هذا النهج للروبوتات بالتعرف على كل من الأشياء المألوفة والجديدة دون إعادة تدريب النظام بأكمله. كما أنه يساعدها على اتخاذ قرارات أفضل في الوقت الحقيقي، مثل تنظيم الرفوف أو تجميع الأجزاء أو إعادة ترتيب العناصر. 

تحسين إعادة الإعمار ثلاثي الأبعاد مع مطابقة أفضل للصور

في مجالات مثل رسم الخرائط بالطائرات بدون طيار والواقع الافتراضي وفحص المباني، غالبًا ما تحتاج الأنظمة إلى إعادة بناء نموذج ثلاثي الأبعاد من عدة صور ثنائية الأبعاد. وللقيام بذلك، تعتمد هذه الأنظمة على مطابقة الصور لتحديد النقاط الرئيسية المشتركة، مثل الزوايا أو المناطق المزخرفة، التي تظهر في عدة صور. 

تساعد هذه النقاط المشتركة النظام على فهم كيفية ارتباط الصور ببعضها البعض في الفضاء ثلاثي الأبعاد. وترتبط هذه الفكرة ارتباطاً وثيقاً بتقنية "البنية من الحركة" (SfM)، وهي تقنية تقوم ببناء هياكل ثلاثية الأبعاد من خلال تحديد ومطابقة النقاط الرئيسية عبر الصور الملتقطة من وجهات نظر مختلفة.

إذا لم تكن المطابقة دقيقة، يمكن أن يظهر النموذج ثلاثي الأبعاد الناتج مشوهاً أو غير مكتمل. لهذا السبب، يعمل الباحثون على تحسين موثوقية مطابقة الصور لإعادة البناء ثلاثي الأبعاد، وقد أظهرت التطورات الأخيرة نتائج واعدة.

أحد الأمثلة المثيرة للاهتمام هو HashMatch، وهي خوارزمية مطابقة صور أسرع وأكثر قوة. تقوم HashMatch بتحويل تفاصيل الصورة إلى أنماط مضغوطة تسمى رموز التجزئة، مما يسهل تحديد التطابقات الصحيحة وإزالة القيم المتطرفة، حتى عندما تختلف الإضاءة أو وجهات النظر.

عند اختبارها على مجموعات بيانات واسعة النطاق، أنتجت HashMatch نماذج إعادة بناء ثلاثية الأبعاد أكثر نظافة وواقعية مع أخطاء محاذاة أقل. هذا يجعلها مفيدة بشكل خاص لتطبيقات مثل رسم الخرائط بالطائرات بدون طيار، وأنظمة الواقع المعزز، والحفاظ على التراث الثقافي، حيث تكون الدقة أمرًا بالغ الأهمية.

دور مطابقة الصور في الواقع المعزز

عندما يتعلق الأمر بالواقع المُعزَّز (AR)، غالبًا ما يمثل الحفاظ على توافق الأجسام الافتراضية مع العالم الحقيقي تحديًا. يمكن أن تتغير البيئات الخارجية باستمرار حسب الظروف البيئية، مثل ضوء الشمس والطقس. يمكن للاختلافات الطفيفة في العالم الحقيقي أن تجعل العناصر الافتراضية تبدو غير مستقرة أو في غير مكانها قليلاً.

ولحل هذه المشكلة، تستخدم أنظمة الواقع المعزز مطابقة الصور لتفسير محيطها. من خلال مقارنة إطارات الكاميرا الحية مع الصور المرجعية المخزنة، يمكنها فهم مكان المستخدم وكيف تغير المشهد.

الشكل 6. نقاط الميزة المطابقة بين صورتين.(المصدر)

على سبيل المثال، في دراسة شملت التدريب على الواقع المعزز في الهواء الطلق على الطراز العسكري باستخدام نظارات الواقع الممتد، استخدم الباحثون تقنية SIFT وغيرها من الأساليب القائمة على الميزات لمطابقة التفاصيل المرئية بين الصور الحقيقية والمرجعية. حافظت المطابقات الدقيقة على محاذاة العناصر الافتراضية بشكل صحيح مع العالم الحقيقي، حتى عندما يتحرك المستخدم بسرعة أو عندما تتغير الإضاءة.

النقاط الرئيسية

تُعد مطابقة الصور مكونًا أساسيًا في الرؤية الحاسوبية، مما يمكّن الأنظمة من فهم كيفية ارتباط الصور المختلفة ببعضها البعض أو كيفية تغير المشهد بمرور الوقت. وهي تلعب دوراً حاسماً في الروبوتات، والواقع المعزز، وإعادة البناء ثلاثي الأبعاد، والملاحة الذاتية، والعديد من التطبيقات الأخرى في العالم الحقيقي حيث الدقة والثبات ضروريان.

مع نماذج الذكاء الاصطناعي المتقدمة مثل SuperPoint و LoFTR، أصبحت أنظمة اليوم أكثر قوة بكثير من الأساليب السابقة. مع استمرار تقدم تقنيات التعلّم الآلي ووحدات الرؤية المتخصصة والشبكات العصبية ومجموعات البيانات، من المرجح أن تصبح مطابقة الصور أسرع وأكثر دقة وقابلية للتكيف.

انضم إلى مجتمعنا المتنامي واستكشف مستودع GitHub للحصول على موارد الذكاء الاصطناعي العملية. للبناء باستخدام Vision AI اليوم، استكشف خيارات الترخيص لدينا. تعرّف على كيفية قيام الذكاء الاصطناعي في الزراعة بتحويل الزراعة وكيف يقوم الذكاء الاصطناعي في Vision AI في مجال الرعاية الصحية بتشكيل المستقبل من خلال زيارة صفحات الحلول الخاصة بنا.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا