اكتشف كيف يساعد تaugment البيانات المرئية نماذج Vision AI على التعلم بشكل أفضل، وتحسين الدقة، والأداء بفعالية أكبر في مواقف العالم الحقيقي.

اكتشف كيف يساعد تaugment البيانات المرئية نماذج Vision AI على التعلم بشكل أفضل، وتحسين الدقة، والأداء بفعالية أكبر في مواقف العالم الحقيقي.
نظرًا لازدهار الذكاء الاصطناعي، فإن ظواهر مثل الروبوتات التي تعمل في المصانع والسيارات ذاتية القيادة التي تسير في الشوارع تتصدر عناوين الأخبار في كثير من الأحيان. يغير الذكاء الاصطناعي الطريقة التي تتفاعل بها الآلات مع العالم، من تحسين التصوير الطبي إلى المساعدة في مراقبة الجودة على خطوط الإنتاج.
يأتي جزء كبير من هذا التقدم من الرؤية الحاسوبية، وهو فرع من فروع الذكاء الاصطناعي الذي يجعل من الممكن للآلات فهم الصور وتفسيرها. تمامًا مثلما يتعلم البشر التعرف على الكائنات والأنماط بمرور الوقت، تحتاج نماذج Vision AI مثل Ultralytics YOLO11 إلى التدريب على كميات كبيرة من بيانات الصور لتطوير فهمها البصري.
ومع ذلك، فإن جمع هذا الكم الهائل من البيانات المرئية ليس بالأمر السهل دائمًا. على الرغم من أن مجتمع الرؤية الحاسوبية قد أنشأ العديد من مجموعات البيانات الكبيرة، إلا أنها لا تزال قادرة على تفويت بعض الاختلافات - مثل الصور التي تحتوي على كائنات في الإضاءة المنخفضة، أو العناصر المخفية جزئيًا، أو الأشياء التي يتم عرضها من زوايا مختلفة. يمكن أن تكون هذه الاختلافات مربكة لنماذج الرؤية الحاسوبية التي تم تدريبها فقط على ظروف معينة.
زيادة البيانات للصور هي تقنية تحل هذه المشكلة عن طريق إدخال اختلافات جديدة في البيانات الموجودة. من خلال إجراء تغييرات على الصور، مثل تعديل الألوان أو التدوير أو تغيير المنظور، تصبح مجموعة البيانات أكثر تنوعًا، مما يساعد نماذج Vision AI على التعرف على الكائنات بشكل أفضل في مواقف العالم الحقيقي.
في هذه المقالة، سنستكشف كيف يعمل تaugment البيانات في الصور وتأثيره على تطبيقات الرؤية الحاسوبية.
لنفترض أنك تحاول التعرف على صديق في حشد من الناس، لكنه يرتدي نظارات شمسية أو يقف في بقعة مظللة. حتى مع هذه التغييرات الطفيفة في المظهر، لا تزال تعرف من هو. من ناحية أخرى، قد يواجه نموذج Vision AI صعوبة في مثل هذه الاختلافات ما لم يتم تدريبه على التعرف على الكائنات في إعدادات مختلفة.
يعمل تaugment بيانات الصور على تحسين أداء نموذج رؤية الكمبيوتر عن طريق إضافة إصدارات معدلة من الصور الموجودة إلى بيانات التدريب، بدلاً من جمع آلاف الصور الجديدة.
التغييرات في الصور مثل القلب والتدوير وتعديل السطوع أو إضافة تشوهات صغيرة تعرض نماذج الذكاء الاصطناعي البصري لمجموعة واسعة من الظروف. بدلاً من الاعتماد على مجموعات بيانات ضخمة، يمكن للنماذج أن تتعلم بكفاءة من مجموعات بيانات تدريب أصغر مع صور مُعززة.
فيما يلي بعض الأسباب الرئيسية التي تجعل الزيادة ضرورية لرؤية الكمبيوتر:
يعد تaugment بيانات الصور مفيدًا بشكل خاص عندما يحتاج نموذج رؤية الكمبيوتر إلى التعرف على الكائنات في مواقف مختلفة ولكن ليس لديه صور متنوعة كافية.
على سبيل المثال، إذا كان الباحثون يقومون بتدريب نموذج رؤية حاسوبية (Vision AI) لتحديد الأنواع النادرة تحت الماء التي نادراً ما يتم تصويرها، فقد تكون مجموعة البيانات صغيرة أو تفتقر إلى التنوع. من خلال زيادة البيانات (augmenting the images) - تعديل الألوان لمحاكاة أعماق مختلفة من المياه، وإضافة ضوضاء لتقليد الظروف الموحلة، أو تغيير الأشكال قليلاً لمراعاة الحركة الطبيعية - يمكن للنموذج أن يتعلم اكتشاف الأجسام تحت الماء بدقة أكبر.
فيما يلي بعض الحالات الأخرى التي يحدث فيها التوسيع فرقًا كبيرًا:
في الأيام الأولى لرؤية الكمبيوتر، تضمنت زيادة بيانات الصورة بشكل أساسي تقنيات معالجة الصور الأساسية مثل قلب الصور وتدويرها واقتصاصها لزيادة تنوع مجموعة البيانات. مع تحسن الذكاء الاصطناعي، تم تقديم طرق أكثر تقدمًا، مثل تعديل الألوان (تحويلات مساحة اللون)، أو زيادة حدة الصور أو تمويهها (مرشحات kernel)، ودمج صور متعددة معًا (خلط الصور) لتحسين التعلم.
يمكن أن تحدث الزيادة قبل وأثناء تدريب النموذج. قبل التدريب، يمكن إضافة صور معدلة إلى مجموعة البيانات لتوفير المزيد من التنوع. أثناء التدريب، يمكن تغيير الصور عشوائيًا في الوقت الفعلي، مما يساعد نماذج الرؤية الاصطناعية على التكيف مع الظروف المختلفة.
يتم إجراء هذه التغييرات باستخدام التحويلات الرياضية. على سبيل المثال، يقوم الدوران بإمالة الصورة، والإقتصاص يزيل أجزاء لمحاكاة وجهات نظر مختلفة، وتغيرات السطوع تحاكي اختلافات الإضاءة. يؤدي التمويه إلى تلطيف الصور، ويجعل التوضيح التفاصيل أكثر وضوحًا، ويجمع مزج الصور بين أجزاء من صور مختلفة. يمكن لـ أطر عمل رؤية الذكاء الاصطناعي وأدوات مثل OpenCV و TensorFlow و PyTorch أتمتة هذه العمليات، مما يجعل الزيادة سريعة وفعالة.
الآن بعد أن ناقشنا ماهية زيادة بيانات الصور، دعنا نلقي نظرة فاحصة على بعض التقنيات الأساسية لزيادة بيانات الصور المستخدمة لتحسين بيانات التدريب.
تحتاج نماذج الرؤية الحاسوبية مثل YOLO11 غالبًا إلى التعرف على الكائنات من زوايا ووجهات نظر مختلفة. للمساعدة في ذلك، يمكن قلب الصور أفقيًا أو رأسيًا حتى يتعلم نموذج الذكاء الاصطناعي التعرف على الكائنات من وجهات نظر مختلفة.
وبالمثل، فإن تدوير الصور يغير زاوية رؤيتها قليلاً، مما يسمح للنموذج بتحديد الكائنات من وجهات نظر متعددة. أيضًا، يساعد تحريك الصور في اتجاهات مختلفة (الترجمة) النماذج على التكيف مع التغييرات الموضعية الصغيرة. تضمن هذه التحويلات أن النماذج تعمم بشكل أفضل على ظروف العالم الحقيقي حيث يكون موضع الكائن في الصورة غير متوقع.
فيما يتعلق بحلول رؤية الكمبيوتر في العالم الحقيقي، يمكن أن تظهر الكائنات في الصور بمسافات وأحجام متفاوتة. يجب أن تكون نماذج رؤية الذكاء الاصطناعي قوية بما يكفي لاكتشافها بغض النظر عن هذه الاختلافات.
لتحسين القدرة على التكيف، يمكن استخدام طرق الزيادة التالية:
تساعد هذه التعديلات نماذج الرؤية الحاسوبية على التعرف على الكائنات حتى إذا تغير حجمها أو شكلها قليلاً.
يمكن أن تظهر الأجسام في الصور بشكل مختلف اعتمادًا على زاوية الكاميرا، مما يجعل التعرف عليها صعبًا بالنسبة لنماذج رؤية الحاسوب. لمساعدة النماذج على التعامل مع هذه الاختلافات، يمكن لتقنيات زيادة البيانات تعديل كيفية تقديم الأجسام في الصور.
على سبيل المثال، يمكن لتحويلات المنظور تغيير زاوية الرؤية، مما يجعل الكائن يبدو كما لو كان يُرى من وضع مختلف. يتيح ذلك لنماذج رؤية الذكاء الاصطناعي التعرف على الكائنات حتى عندما تكون مائلة أو تم التقاطها من وجهة نظر غير عادية.
مثال آخر هو التحويل المرن الذي يمدد أو يثني أو يشوه الصور لمحاكاة التشوهات الطبيعية بحيث تظهر الكائنات كما تظهر في الانعكاسات أو تحت الضغط.
يمكن أن تؤثر ظروف الإضاءة واختلافات الألوان بشكل كبير على كيفية تفسير نماذج Vision AI للصور. نظرًا لأن الكائنات يمكن أن تظهر بشكل مختلف في ظل إعدادات إضاءة مختلفة، يمكن أن تساعد تقنيات الزيادة التالية في التعامل مع هذه المواقف:
حتى الآن، استكشفنا فقط تقنيات الزيادة التي تعدل صورة واحدة. ومع ذلك، تتضمن بعض الطرق المتقدمة دمج صور متعددة لتحسين تعلم الذكاء الاصطناعي.
على سبيل المثال، يمزج MixUp صورتين معًا، مما يساعد نماذج رؤية الكمبيوتر على فهم العلاقات بين الكائنات وتحسين قدرتها على التعميم عبر سيناريوهات مختلفة. يأخذ CutMix هذا خطوة إلى الأمام عن طريق استبدال قسم من صورة بجزء من صورة أخرى، مما يمكّن النماذج من التعلم من سياقات متعددة داخل نفس الصورة. وفي الوقت نفسه، يعمل CutOut بشكل مختلف عن طريق إزالة أجزاء عشوائية من الصورة، وتدريب نماذج الرؤية الاصطناعية على التعرف على الكائنات حتى عندما تكون مخفية أو معاقة جزئيًا.
يكتسب الذكاء الاصطناعي التوليدي شعبية في العديد من الصناعات والتطبيقات اليومية. من المحتمل أنك صادفته فيما يتعلق بالصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، أو مقاطع الفيديو المزيفة العميقة، أو التطبيقات التي تنشئ صورًا رمزية واقعية. ولكن بالإضافة إلى الإبداع والترفيه، يلعب الذكاء الاصطناعي التوليدي دورًا حاسمًا في تدريب نماذج رؤية الذكاء الاصطناعي من خلال إنشاء صور جديدة من الصور الموجودة.
بدلًا من مجرد قلب الصور أو تدويرها، يمكنها إنشاء اختلافات واقعية - تغيير تعابير الوجه، وأنماط الملابس، أو حتى محاكاة الظروف الجوية المختلفة. تساعد هذه الاختلافات نماذج رؤية الكمبيوتر على أن تصبح أكثر تكيفًا ودقة في سيناريوهات العالم الحقيقي المتنوعة. يمكن لنماذج الذكاء الاصطناعي التوليدية المتقدمة مثل الشبكات الخصومية التوليدية (GANs) و نماذج الانتشار أيضًا ملء التفاصيل المفقودة أو إنشاء صور اصطناعية عالية الجودة.
في حين أن زيادة البيانات تحسن مجموعات بيانات التدريب، إلا أن هناك أيضًا بعض القيود التي يجب أخذها في الاعتبار. فيما يلي بعض التحديات الرئيسية المتعلقة بزيادة بيانات الصور:
من التطبيقات الشيقة لزيادة بيانات الصور في السيارات ذاتية القيادة، حيث تكون القرارات التي تتخذها نماذج رؤية الكمبيوتر مثل YOLO11 في أجزاء من الثانية حاسمة. يجب أن يكون النموذج قادرًا على اكتشاف الطرق والأشخاص والأشياء الأخرى بدقة.
مع ذلك، يمكن أن تكون الظروف الواقعية التي تواجهها السيارة ذاتية القيادة غير متوقعة. يمكن أن يؤدي الطقس السيئ وضبابية الحركة والإشارات المخفية إلى تعقيد حلول رؤية الذكاء الاصطناعي في هذا القطاع. غالبًا ما لا يكفي تدريب نماذج رؤية الكمبيوتر باستخدام صور واقعية فقط. يجب أن تكون مجموعات بيانات الصور الخاصة بنماذج السيارات ذاتية القيادة متنوعة حتى يتمكن النموذج من تعلم كيفية التعامل مع المواقف غير المتوقعة.
يعالج تaugment بيانات الصور هذا عن طريق محاكاة الضباب وتعديل السطوع وتشويه الأشكال. تساعد هذه التغييرات النماذج على التعرف على الكائنات في ظروف مختلفة. ونتيجة لذلك، تصبح النماذج أكثر ذكاءً وموثوقية.
من خلال التدريب المعزز، تتكيف حلول رؤية الذكاء الاصطناعي في السيارات ذاتية القيادة بشكل أفضل وتتخذ قرارات أكثر أمانًا. تعني النتائج الأكثر دقة عددًا أقل من الحوادث وتحسين الملاحة.
السيارات ذاتية القيادة هي مجرد مثال واحد. في الواقع، يعد تaugment البيانات المرئية أمرًا بالغ الأهمية في مجموعة واسعة من القطاعات، من التصوير الطبي إلى تحليلات البيع بالتجزئة. أي تطبيق يعتمد على الرؤية الحاسوبية يمكن أن يستفيد من تaugment البيانات المرئية.
تحتاج أنظمة الذكاء الاصطناعي البصري إلى أن تكون قادرة على التعرف على الكائنات في ظروف مختلفة، ولكن جمع صور واقعية لا حصر لها للتدريب قد يكون أمرًا صعبًا. تعمل زيادة بيانات الصور على حل هذه المشكلة عن طريق إنشاء اختلافات في الصور الموجودة، مما يساعد النماذج على التعلم بشكل أسرع والأداء بشكل أفضل في المواقف الواقعية. إنه يحسن الدقة، مما يضمن أن نماذج الذكاء الاصطناعي البصري مثل YOLO11 يمكنها التعامل مع الإضاءة والزوايا والبيئات المختلفة.
بالنسبة للشركات والمطورين، فإن زيادة بيانات الصور توفر الوقت والجهد مع جعل نماذج رؤية الكمبيوتر أكثر موثوقية. من الرعاية الصحية إلى السيارات ذاتية القيادة، تعتمد عليها العديد من الصناعات. مع استمرار تطور Vision AI، ستظل الزيادة جزءًا أساسيًا من بناء نماذج أكثر ذكاءً وقابلة للتكيف للمستقبل.
انضموا إلى مجتمعنا وقوموا بزيارة مستودع GitHub الخاص بنا لمشاهدة الذكاء الاصطناعي وهو يعمل. استكشفوا خيارات الترخيص الخاصة بنا واكتشفوا المزيد حول الذكاء الاصطناعي في الزراعة و رؤية الكمبيوتر في التصنيع على صفحات الحلول الخاصة بنا.