اكتشف كيف تمكّن أنواع البيانات المرئية مثل التصوير الحراري وصور الليدار والأشعة تحت الحمراء من تمكين تطبيقات الرؤية الحاسوبية المتنوعة في مختلف الصناعات.
كانت تكنولوجيا مثل الطائرات بدون طيار محدودة ومتاحة فقط للباحثين والمتخصصين، ولكن في الوقت الحاضر، أصبحت الأجهزة المتطورة في متناول جمهور أوسع. هذا التحول يغير الطريقة التي نجمع بها البيانات المرئية. وبفضل التكنولوجيا التي أصبح الوصول إليها أكثر سهولة، يمكننا الآن التقاط الصور ومقاطع الفيديو من مصادر متنوعة، بخلاف الكاميرات التقليدية.
في موازاة ذلك، تتطور تحليلات الصور، التي تم تمكينها من خلال الرؤية الحاسوبية، وهي فرع من فروع الذكاء الاصطناعي (AI)، بشكل سريع، مما يسمح للآلات بتفسير البيانات المرئية ومعالجتها بشكل أكثر فعالية. وقد فتح هذا التقدم إمكانيات جديدة للأتمتة واكتشاف الأشياء والتحليل في الوقت الحقيقي. يمكن للآلات الآن التعرف على الأنماط وتتبع الحركة وفهم المدخلات البصرية المعقدة.
تشمل بعض الأنواع الرئيسية للبيانات المرئية صور RGB (الأحمر والأخضر والأزرق)، والتي تُستخدم عادةً للتعرف على الأجسام، والتصوير الحراري، الذي يساعد على اكتشاف البصمات الحرارية في ظروف الإضاءة المنخفضة، وبيانات العمق، التي تُمكِّن الآلات من فهم البيئات ثلاثية الأبعاد. يؤدي كل نوع من أنواع البيانات هذه دورًا حيويًا في تشغيل التطبيقات المختلفة للذكاء الاصطناعي المرئي، بدءًا من المراقبة إلى التصوير الطبي.
في هذه المقالة، سنستكشف في هذه المقالة الأنواع الرئيسية للبيانات المرئية المستخدمة في الذكاء الاصطناعي المرئي ونستكشف كيف يساهم كل منها في تحسين الدقة والكفاءة والأداء في مختلف الصناعات. لنبدأ!
عادةً، عندما تستخدم هاتفًا ذكيًا لالتقاط صورة أو عرض لقطات كاميرات المراقبة، فإنك تتعامل مع صور RGB. يرمز RGB إلى الأحمر والأخضر والأزرق، وهي قنوات الألوان الثلاثة التي تمثل المعلومات المرئية في الصور الرقمية.
صور RGB ومقاطع الفيديو هي أنواع متقاربة من البيانات المرئية المستخدمة في الرؤية الحاسوبية، وكلاهما ملتقط باستخدام كاميرات قياسية. والفرق الرئيسي هو أن الصور تلتقط لحظة واحدة، بينما مقاطع الفيديو عبارة عن سلسلة من الإطارات التي تُظهر كيف تتغير الأشياء بمرور الوقت.
تُستخدم صور RGB بشكل عام في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، وتجزئة النماذج، وتقدير الوضعية، بدعم من نماذج مثل Ultralytics YOLO11. تعتمد هذه التطبيقات على تحديد الأنماط أو الأشكال أو السمات المحددة في إطار واحد.
من ناحية أخرى، تُعد مقاطع الفيديو ضرورية عندما تكون الحركة أو الوقت عاملاً أساسيًا، مثل التعرف على الإيماءات أو المراقبة أو تتبع الإجراءات. نظرًا لأن مقاطع الفيديو يمكن اعتبارها سلسلة من الصور، فإن نماذج الرؤية الحاسوبية مثل YOLO11 تعالجها إطارًا بإطار لفهم الحركة والسلوك مع مرور الوقت.
على سبيل المثال، يمكن استخدام YOLO11 لتحليل صور أو مقاطع فيديو RGB للكشف عن الأعشاب الضارة وإحصاء النباتات في الحقول الزراعية. وهذا يعزز مراقبة المحاصيل ويساعد على تتبع التغيرات عبر دورات النمو من أجل إدارة أكثر كفاءة للمزرعة.
تضيف بيانات العمق بُعداً ثالثاً للمعلومات المرئية من خلال الإشارة إلى مدى بُعد الأجسام عن الكاميرا أو المستشعر. على عكس صور RGB التي تلتقط اللون والملمس فقط، توفر بيانات العمق السياق المكاني. فهي تعرض المسافة بين الأجسام والكاميرا، مما يجعل من الممكن تفسير التخطيط ثلاثي الأبعاد للمشهد.
يتم التقاط هذا النوع من البيانات باستخدام تقنيات مثل كاميرات LiDAR، والرؤية المجسمة (باستخدام كاميرتين لمحاكاة إدراك العمق البشري)، وكاميرات وقت الرحلة (قياس الوقت الذي يستغرقه الضوء للانتقال إلى جسم ما والعودة إليه).
من بين هذه التقنيات، غالبًا ما تكون تقنية LiDAR (الكشف عن الضوء وتحديد المدى) هي الأكثر موثوقية لقياس العمق. وهو يعمل عن طريق إرسال نبضات ليزر سريعة وقياس المدة التي تستغرقها هذه النبضات لترتد. والنتيجة هي خريطة ثلاثية الأبعاد عالية الدقة، تُعرف باسم سحابة النقاط، والتي تبرز شكل الأجسام وموقعها ومسافتها في الوقت الفعلي.
يمكن تقسيم تقنية ليدار إلى نوعين رئيسيين، كل منهما مصمم لتطبيقات وبيئات محددة. فيما يلي نظرة فاحصة على كلا النوعين:
من التطبيقات المؤثرة لبيانات LiDAR في المركبات ذاتية القيادة، حيث تلعب دوراً رئيسياً في مهام مثل اكتشاف المسارات وتجنب الاصطدام وتحديد الأجسام القريبة. يُنشئ LiDAR خرائط ثلاثية الأبعاد مفصّلة في الوقت الحقيقي للبيئة، مما يمكّن السيارة من رؤية الأجسام وحساب المسافة بينها والتنقل بأمان.
تلتقط صور RGB ما نراه في طيف الضوء المرئي؛ ومع ذلك، فإن تقنيات التصوير الأخرى، مثل التصوير الحراري والتصوير بالأشعة تحت الحمراء، تتجاوز ذلك. يلتقط التصوير بالأشعة تحت الحمراء ضوء الأشعة تحت الحمراء المنبعث أو المنعكس من الأجسام، مما يجعلها مفيدة في ظروف الإضاءة المنخفضة.
وعلى النقيض من ذلك، يكتشف التصوير الحراري الحرارة المنبعثة من الأجسام ويظهر الاختلافات في درجات الحرارة، مما يسمح له بالعمل في الظلام الدامس أو من خلال الدخان والضباب والعوائق الأخرى. هذا النوع من البيانات مفيد بشكل خاص لرصد واكتشاف المشاكل، خاصة في الصناعات التي يمكن أن تشير التغيرات في درجات الحرارة فيها إلى مشاكل محتملة.
ومن الأمثلة المثيرة للاهتمام التصوير الحراري المستخدم لمراقبة المكونات الكهربائية بحثًا عن علامات ارتفاع درجة الحرارة. من خلال الكشف عن الاختلافات في درجات الحرارة، يمكن للكاميرات الحرارية تحديد المشاكل قبل أن تؤدي إلى تعطل المعدات أو الحرائق أو الأضرار المكلفة.
وبالمثل، يمكن أن تساعد صور الأشعة تحت الحمراء في الكشف عن التسريبات في خطوط الأنابيب أو العزل من خلال تحديد الاختلافات في درجات الحرارة التي تشير إلى تسرب الغازات أو السوائل، وهو أمر بالغ الأهمية لمنع المواقف الخطرة وتحسين كفاءة الطاقة.
وفي حين أن التصوير بالأشعة تحت الحمراء والتصوير الحراري يلتقط جوانب محددة من الطيف الكهرومغناطيسي، فإن التصوير متعدد الأطياف يجمع الضوء من بضعة نطاقات موجية مختارة، يتم اختيار كل منها لغرض محدد، مثل الكشف عن الغطاء النباتي السليم أو تحديد المواد السطحية.
ويأخذ التصوير فائق الطيفية هذه الخطوة إلى أبعد من ذلك من خلال التقاط الضوء عبر مئات من نطاقات الطول الموجي الضيقة جدًا والمستمرة. يوفر ذلك بصمة ضوئية مفصلة لكل بكسل في الصورة، مما يوفر فهمًا أعمق بكثير لأي مادة يتم رصدها.
ويستخدم كل من التصوير متعدد الأطياف والتصوير فائق الطيفية مستشعرات ومرشحات خاصة لالتقاط الضوء بأطوال موجية مختلفة. ثم يتم تنظيم البيانات بعد ذلك في هيكل ثلاثي الأبعاد يسمى المكعب الطيفي، حيث تمثل كل طبقة طول موجي مختلف.
يمكن لنماذج الذكاء الاصطناعي تحليل هذه البيانات لاكتشاف السمات التي لا تستطيع الكاميرات العادية أو العين البشرية رؤيتها. على سبيل المثال، في مجال التنميط الظاهري للنبات، يمكن استخدام التصوير فائق الطيفية لمراقبة صحة النباتات ونموها من خلال الكشف عن التغيرات الطفيفة في أوراقها أو سيقانها، مثل نقص المغذيات أو الإجهاد. ويساعد ذلك الباحثين على تقييم صحة النباتات وتحسين الممارسات الزراعية دون الحاجة إلى أساليب جائرة.
التصوير الراداري والتصوير بالسونار هما تقنيتان تكتشفان الأجسام وترسمان خرائط لها من خلال إرسال إشارات وتحليل انعكاساتها، على غرار تقنية LiDAR. وعلى عكس التصوير بالرادار الذي يعتمد على الموجات الضوئية لالتقاط المعلومات المرئية، يستخدم الرادار الموجات الكهرومغناطيسية، وهي عادةً موجات الراديو، بينما يستخدم السونار الموجات الصوتية. ويبعث كل من نظامي الرادار والسونار نبضات ويقيسان الوقت الذي تستغرقه الإشارة لترتد من جسم ما، مما يوفر معلومات حول مسافته وحجمه وسرعته.
يكون التصوير بالرادار مفيداً بشكل خاص عندما تكون الرؤية ضعيفة، كما هو الحال أثناء الضباب أو المطر أو الليل. ولأنه لا يعتمد على الضوء، يمكنه اكتشاف الطائرات أو المركبات أو التضاريس في الظلام الدامس. وهذا يجعل الرادار خياراً موثوقاً به في مجال الطيران ومراقبة الطقس والملاحة المستقلة.
وبالمقارنة، يشيع استخدام التصوير بالسونار في البيئات تحت الماء حيث لا يمكن للضوء الوصول إليها. فهو يستخدم الموجات الصوتية التي تنتقل عبر الماء وترتد عن الأجسام المغمورة، مما يسمح باكتشاف الغواصات ورسم خرائط لقاع المحيط وتنفيذ مهام الإنقاذ تحت الماء. ويتيح التقدم في مجال الرؤية الحاسوبية الآن تعزيز الكشف تحت الماء من خلال الجمع بين بيانات السونار والتحليل الذكي لتحسين الكشف واتخاذ القرارات.
حتى الآن، كانت الأنواع المختلفة من البيانات التي ناقشناها هي تلك التي يمكن جمعها من العالم الحقيقي. ومع ذلك، فإن البيانات المرئية الاصطناعية والمحاكاة كلاهما نوعان من المحتوى الاصطناعي. البيانات الاصطناعية يتم إنشاؤها من الصفر باستخدام النمذجة ثلاثية الأبعاد أو الذكاء الاصطناعي التوليدي لإنتاج صور أو مقاطع فيديو واقعية المظهر.
البيانات المُحاكاة مشابهة ولكنها تتضمن إنشاء بيئات افتراضية تحاكي سلوك العالم المادي، بما في ذلك انعكاس الضوء وتشكيل الظل وحركة الأجسام. في حين أن جميع البيانات المرئية المحاكاة هي بيانات اصطناعية، إلا أن البيانات الاصطناعية ليست كلها محاكاة. الفرق الرئيسي هو أن البيانات المحاكاة تحاكي السلوك الواقعي، وليس فقط المظهر.
هذه الأنواع من البيانات مفيدة لتدريب نماذج الرؤية الحاسوبية، خاصةً عندما يكون من الصعب جمع بيانات العالم الحقيقي أو عندما تكون هناك حاجة إلى محاكاة مواقف محددة ونادرة. يمكن للمطورين إنشاء مشاهد كاملة، واختيار أنواع الكائنات والمواضع والإضاءة، وإضافة تسميات تلقائيًا مثل المربعات المحدودة للتدريب. يساعد ذلك في إنشاء مجموعات بيانات كبيرة ومتنوعة بسرعة، دون الحاجة إلى صور حقيقية أو وضع العلامات يدويًا، وهو ما قد يكون مكلفًا ويستغرق وقتًا طويلاً.
على سبيل المثال، في مجال الرعاية الصحية، يمكن استخدام البيانات الاصطناعية لتدريب النماذج على تجزئة خلايا سرطان الثدي، حيث يصعب جمع مجموعات بيانات كبيرة من الصور الحقيقية وتمييزها. توفر البيانات الاصطناعية وبيانات المحاكاة المرونة والتحكم، مما يسد الثغرات حيث تكون الصور الواقعية محدودة.
والآن بعد أن ألقينا نظرة على كيفية عمل الأنواع المختلفة من البيانات المرئية وما يمكنها القيام به، دعنا نلقي نظرة فاحصة على أنواع البيانات الأفضل لمهام محددة:
في بعض الأحيان، قد لا يوفر نوع بيانات واحد ما يكفي من الدقة أو السياق في مواقف العالم الحقيقي. وهنا يصبح دمج المستشعرات متعددة الوسائط أمرًا أساسيًا. من خلال الجمع بين RGB وأنواع البيانات الأخرى مثل البيانات الحرارية أو العمق أو الليدار، يمكن للأنظمة التغلب على القيود الفردية، مما يحسن الموثوقية والقدرة على التكيف.
على سبيل المثال، في أتمتة المستودعات، يؤدي استخدام RGB للتعرف على الأجسام، والعمق لقياس المسافة، والحراري للكشف عن ارتفاع درجة حرارة المعدات إلى جعل العمليات أكثر كفاءة وأمانًا. في النهاية، تأتي أفضل النتائج من اختيار أو دمج أنواع البيانات بناءً على الاحتياجات المحددة للتطبيق الخاص بك.
عند بناء نماذج الذكاء الاصطناعي للرؤية، فإن اختيار النوع الصحيح من البيانات المرئية أمر بالغ الأهمية. لا تعتمد مهام مثل اكتشاف الأجسام وتجزئتها وتتبع الحركة على الخوارزميات فحسب، بل تعتمد أيضًا على جودة بيانات الإدخال. تساعد مجموعات البيانات النظيفة والمتنوعة والدقيقة في تقليل التشويش وتحسين الأداء.
من خلال الجمع بين أنواع البيانات مثل RGB والعمق والحرارة والليدار، تكتسب أنظمة الذكاء الاصطناعي رؤية أكثر اكتمالاً للبيئة، مما يجعلها أكثر موثوقية في مختلف الظروف. مع استمرار تحسن التكنولوجيا، من المرجح أن يمهد الطريق أمام الذكاء الاصطناعي البصري ليصبح أسرع وأكثر قابلية للتكيف وأكثر تأثيراً في مختلف الصناعات.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن رؤية الكمبيوتر. اكتشف العديد من التطبيقات المتعلقة بالذكاء الاصطناعي في مجال الرعاية الصحية والرؤية الحاسوبية في مجال البيع بالتجزئة على صفحات الحلول الخاصة بنا. اطّلع على خيارات الترخيص لدينا لبدء استخدام Vision AI.