اكتشف كيف يساعد تaugment البيانات المرئية نماذج Vision AI على التعلم بشكل أفضل، وتحسين الدقة، والأداء بفعالية أكبر في مواقف العالم الحقيقي.
اكتشف كيف يساعد تaugment البيانات المرئية نماذج Vision AI على التعلم بشكل أفضل، وتحسين الدقة، والأداء بفعالية أكبر في مواقف العالم الحقيقي.
نظرًا لازدهار الذكاء الاصطناعي، فإن ظواهر مثل الروبوتات التي تعمل في المصانع والسيارات ذاتية القيادة التي تسير في الشوارع تتصدر عناوين الأخبار في كثير من الأحيان. يغير الذكاء الاصطناعي الطريقة التي تتفاعل بها الآلات مع العالم، من تحسين التصوير الطبي إلى المساعدة في مراقبة الجودة على خطوط الإنتاج.
يأتي جزء كبير من هذا التقدم من الرؤية الحاسوبية، وهو فرع من فروع الذكاء الاصطناعي يتيح للآلات فهم الصور وتفسيرها. تماماً مثلما يتعلم البشر التعرف على الأشياء والأنماط بمرور الوقت، فإن نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO11 تحتاج إلى التدريب على كميات كبيرة من بيانات الصور لتطوير فهمها البصري.
ومع ذلك، فإن جمع هذا الكم الهائل من البيانات المرئية ليس بالأمر السهل دائمًا. على الرغم من أن مجتمع الرؤية الحاسوبية قد أنشأ العديد من مجموعات البيانات الكبيرة، إلا أنها لا تزال قادرة على تفويت بعض الاختلافات - مثل الصور التي تحتوي على كائنات في الإضاءة المنخفضة، أو العناصر المخفية جزئيًا، أو الأشياء التي يتم عرضها من زوايا مختلفة. يمكن أن تكون هذه الاختلافات مربكة لنماذج الرؤية الحاسوبية التي تم تدريبها فقط على ظروف معينة.
زيادة البيانات للصور هي تقنية تحل هذه المشكلة عن طريق إدخال اختلافات جديدة في البيانات الموجودة. من خلال إجراء تغييرات على الصور، مثل تعديل الألوان أو التدوير أو تغيير المنظور، تصبح مجموعة البيانات أكثر تنوعًا، مما يساعد نماذج Vision AI على التعرف على الكائنات بشكل أفضل في مواقف العالم الحقيقي.
في هذه المقالة، سنستكشف كيف يعمل تaugment البيانات في الصور وتأثيره على تطبيقات الرؤية الحاسوبية.
لنفترض أنك تحاول التعرف على صديق في حشد من الناس، لكنه يرتدي نظارات شمسية أو يقف في بقعة مظللة. حتى مع هذه التغييرات الطفيفة في المظهر، لا تزال تعرف من هو. من ناحية أخرى، قد يواجه نموذج Vision AI صعوبة في مثل هذه الاختلافات ما لم يتم تدريبه على التعرف على الكائنات في إعدادات مختلفة.
يعمل تaugment بيانات الصور على تحسين أداء نموذج رؤية الكمبيوتر عن طريق إضافة إصدارات معدلة من الصور الموجودة إلى بيانات التدريب، بدلاً من جمع آلاف الصور الجديدة.
التغييرات في الصور مثل القلب والتدوير وتعديل السطوع أو إضافة تشوهات صغيرة تعرض نماذج الذكاء الاصطناعي البصري لمجموعة واسعة من الظروف. بدلاً من الاعتماد على مجموعات بيانات ضخمة، يمكن للنماذج أن تتعلم بكفاءة من مجموعات بيانات تدريب أصغر مع صور مُعززة.

فيما يلي بعض الأسباب الرئيسية التي تجعل الزيادة ضرورية لرؤية الكمبيوتر:
يعد تaugment بيانات الصور مفيدًا بشكل خاص عندما يحتاج نموذج رؤية الكمبيوتر إلى التعرف على الكائنات في مواقف مختلفة ولكن ليس لديه صور متنوعة كافية.
على سبيل المثال، إذا كان الباحثون يدرّبون نموذج ذكاء اصطناعي للرؤية لتحديد الأنواع النادرة تحت الماء التي نادراً ما يتم تصويرها، فقد تكون مجموعة البيانات صغيرة أو تفتقر إلى التباين. من خلال زيادة الصور - تعديل الألوان لمحاكاة أعماق المياه المختلفة، أو إضافة ضوضاء لمحاكاة الظروف المظلمة، أو تغيير الأشكال قليلاً لمحاكاة الحركة الطبيعية - يمكن للنموذج أن يتعلم detect الأجسام تحت الماء بدقة أكبر.
فيما يلي بعض الحالات الأخرى التي يحدث فيها التوسيع فرقًا كبيرًا:
في الأيام الأولى لرؤية الكمبيوتر، تضمنت زيادة بيانات الصورة بشكل أساسي تقنيات معالجة الصور الأساسية مثل قلب الصور وتدويرها واقتصاصها لزيادة تنوع مجموعة البيانات. مع تحسن الذكاء الاصطناعي، تم تقديم طرق أكثر تقدمًا، مثل تعديل الألوان (تحويلات مساحة اللون)، أو زيادة حدة الصور أو تمويهها (مرشحات kernel)، ودمج صور متعددة معًا (خلط الصور) لتحسين التعلم.
يمكن أن تحدث الزيادة قبل وأثناء تدريب النموذج. قبل التدريب، يمكن إضافة صور معدلة إلى مجموعة البيانات لتوفير المزيد من التنوع. أثناء التدريب، يمكن تغيير الصور عشوائيًا في الوقت الفعلي، مما يساعد نماذج الرؤية الاصطناعية على التكيف مع الظروف المختلفة.
يتم إجراء هذه التغييرات باستخدام التحويلات الرياضية. على سبيل المثال، يؤدي التدوير إلى إمالة الصورة، ويؤدي الاقتصاص إلى إزالة أجزاء لمحاكاة مناظر مختلفة، وتغييرات السطوع تحاكي اختلافات الإضاءة. يعمل التعتيم على تنعيم الصور، ويجعل التوضيح التفاصيل أكثر وضوحًا، ويجمع مزج الصور بين أجزاء من صور مختلفة. يمكن لأطر عمل وأدوات الذكاء الاصطناعي للرؤية مثل OpenCV و TensorFlow و PyTorch أتمتة هذه العمليات، مما يجعل التعزيز سريعًا وفعالاً.
الآن بعد أن ناقشنا ماهية زيادة بيانات الصور، دعنا نلقي نظرة فاحصة على بعض التقنيات الأساسية لزيادة بيانات الصور المستخدمة لتحسين بيانات التدريب.
غالباً ما تحتاج نماذج الرؤية الحاسوبية مثل YOLO11 إلى التعرف على الأجسام من زوايا ووجهات نظر مختلفة. للمساعدة في ذلك، يمكن قلب الصور أفقيًا أو رأسيًا بحيث يتعلم نموذج الذكاء الاصطناعي التعرف على الأجسام من وجهات نظر مختلفة.
وبالمثل، فإن تدوير الصور يغير زاوية رؤيتها قليلاً، مما يسمح للنموذج بتحديد الكائنات من وجهات نظر متعددة. أيضًا، يساعد تحريك الصور في اتجاهات مختلفة (الترجمة) النماذج على التكيف مع التغييرات الموضعية الصغيرة. تضمن هذه التحويلات أن النماذج تعمم بشكل أفضل على ظروف العالم الحقيقي حيث يكون موضع الكائن في الصورة غير متوقع.

فيما يتعلق بحلول الرؤية الحاسوبية في العالم الحقيقي، يمكن أن تظهر الأجسام في الصور على مسافات وأحجام مختلفة. يجب أن تكون نماذج الذكاء الاصطناعي للرؤية قوية بما يكفي detect بغض النظر عن هذه الاختلافات.
لتحسين القدرة على التكيف، يمكن استخدام طرق الزيادة التالية:
تساعد هذه التعديلات نماذج الرؤية الحاسوبية على التعرف على الكائنات حتى إذا تغير حجمها أو شكلها قليلاً.
يمكن أن تظهر الأجسام في الصور بشكل مختلف اعتمادًا على زاوية الكاميرا، مما يجعل التعرف عليها صعبًا بالنسبة لنماذج رؤية الحاسوب. لمساعدة النماذج على التعامل مع هذه الاختلافات، يمكن لتقنيات زيادة البيانات تعديل كيفية تقديم الأجسام في الصور.
على سبيل المثال، يمكن لتحويلات المنظور تغيير زاوية الرؤية، مما يجعل الكائن يبدو كما لو كان يُرى من وضع مختلف. يتيح ذلك لنماذج رؤية الذكاء الاصطناعي التعرف على الكائنات حتى عندما تكون مائلة أو تم التقاطها من وجهة نظر غير عادية.
مثال آخر هو التحويل المرن الذي يمدد أو يثني أو يشوه الصور لمحاكاة التشوهات الطبيعية بحيث تظهر الكائنات كما تظهر في الانعكاسات أو تحت الضغط.
يمكن أن تؤثر ظروف الإضاءة واختلافات الألوان بشكل كبير على كيفية تفسير نماذج Vision AI للصور. نظرًا لأن الكائنات يمكن أن تظهر بشكل مختلف في ظل إعدادات إضاءة مختلفة، يمكن أن تساعد تقنيات الزيادة التالية في التعامل مع هذه المواقف:

حتى الآن، استكشفنا فقط تقنيات الزيادة التي تعدل صورة واحدة. ومع ذلك، تتضمن بعض الطرق المتقدمة دمج صور متعددة لتحسين تعلم الذكاء الاصطناعي.
على سبيل المثال، يمزج برنامج MixUp بين صورتين معًا، مما يساعد نماذج الرؤية الحاسوبية على فهم العلاقات بين الكائنات وتحسين قدرتها على التعميم عبر سيناريوهات مختلفة. ويأخذ CutMix هذا الأمر خطوة إلى الأمام من خلال استبدال جزء من صورة بجزء من صورة أخرى، مما يمكّن النماذج من التعلم من سياقات متعددة داخل الصورة نفسها. وفي الوقت نفسه، يعمل CutOut بشكل مختلف عن طريق إزالة أجزاء عشوائية من الصورة، وتدريب نماذج الذكاء الاصطناعي البصري على التعرف على الأجسام حتى عندما تكون مخفية أو معطلة جزئياً.

يكتسب الذكاء الاصطناعي التوليدي شعبية في العديد من الصناعات والتطبيقات اليومية. من المحتمل أنك صادفته فيما يتعلق بالصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، أو مقاطع الفيديو المزيفة العميقة، أو التطبيقات التي تنشئ صورًا رمزية واقعية. ولكن بالإضافة إلى الإبداع والترفيه، يلعب الذكاء الاصطناعي التوليدي دورًا حاسمًا في تدريب نماذج رؤية الذكاء الاصطناعي من خلال إنشاء صور جديدة من الصور الموجودة.
بدلًا من مجرد قلب الصور أو تدويرها، يمكنها إنشاء اختلافات واقعية - تغيير تعابير الوجه، وأنماط الملابس، أو حتى محاكاة الظروف الجوية المختلفة. تساعد هذه الاختلافات نماذج رؤية الكمبيوتر على أن تصبح أكثر تكيفًا ودقة في سيناريوهات العالم الحقيقي المتنوعة. يمكن لنماذج الذكاء الاصطناعي التوليدية المتقدمة مثل الشبكات الخصومية التوليدية (GANs) و نماذج الانتشار أيضًا ملء التفاصيل المفقودة أو إنشاء صور اصطناعية عالية الجودة.
في حين أن زيادة البيانات تحسن مجموعات بيانات التدريب، إلا أن هناك أيضًا بعض القيود التي يجب أخذها في الاعتبار. فيما يلي بعض التحديات الرئيسية المتعلقة بزيادة بيانات الصور:
أحد التطبيقات المثيرة للاهتمام لزيادة بيانات الصور هو في السيارات ذاتية القيادة، حيث تكون القرارات التي تتخذها نماذج الرؤية الحاسوبية مثل YOLO11 في أجزاء من الثانية حاسمة. يجب أن يكون النموذج قادراً على detect الطرق والأشخاص والأشياء الأخرى بدقة.
مع ذلك، يمكن أن تكون الظروف الواقعية التي تواجهها السيارة ذاتية القيادة غير متوقعة. يمكن أن يؤدي الطقس السيئ وضبابية الحركة والإشارات المخفية إلى تعقيد حلول رؤية الذكاء الاصطناعي في هذا القطاع. غالبًا ما لا يكفي تدريب نماذج رؤية الكمبيوتر باستخدام صور واقعية فقط. يجب أن تكون مجموعات بيانات الصور الخاصة بنماذج السيارات ذاتية القيادة متنوعة حتى يتمكن النموذج من تعلم كيفية التعامل مع المواقف غير المتوقعة.
يعالج تaugment بيانات الصور هذا عن طريق محاكاة الضباب وتعديل السطوع وتشويه الأشكال. تساعد هذه التغييرات النماذج على التعرف على الكائنات في ظروف مختلفة. ونتيجة لذلك، تصبح النماذج أكثر ذكاءً وموثوقية.
من خلال التدريب المعزز، تتكيف حلول رؤية الذكاء الاصطناعي في السيارات ذاتية القيادة بشكل أفضل وتتخذ قرارات أكثر أمانًا. تعني النتائج الأكثر دقة عددًا أقل من الحوادث وتحسين الملاحة.

السيارات ذاتية القيادة هي مجرد مثال واحد. في الواقع، يعد تaugment البيانات المرئية أمرًا بالغ الأهمية في مجموعة واسعة من القطاعات، من التصوير الطبي إلى تحليلات البيع بالتجزئة. أي تطبيق يعتمد على الرؤية الحاسوبية يمكن أن يستفيد من تaugment البيانات المرئية.
تحتاج أنظمة الذكاء الاصطناعي للرؤية إلى أن تكون قادرة على التعرف على الأشياء في ظروف مختلفة، ولكن قد يكون من الصعب جمع عدد لا نهائي من الصور الواقعية للتدريب. تعمل زيادة بيانات الصور على حل هذه المشكلة من خلال إنشاء أشكال مختلفة من الصور الموجودة، مما يساعد النماذج على التعلم بشكل أسرع وأداء أفضل في مواقف العالم الحقيقي. كما أنه يحسّن الدقة، مما يضمن قدرة نماذج الذكاء الاصطناعي للرؤية مثل YOLO11 على التعامل مع الإضاءة والزوايا والبيئات المختلفة.
بالنسبة للشركات والمطورين، فإن زيادة بيانات الصور توفر الوقت والجهد مع جعل نماذج رؤية الكمبيوتر أكثر موثوقية. من الرعاية الصحية إلى السيارات ذاتية القيادة، تعتمد عليها العديد من الصناعات. مع استمرار تطور Vision AI، ستظل الزيادة جزءًا أساسيًا من بناء نماذج أكثر ذكاءً وقابلة للتكيف للمستقبل.
انضموا إلى مجتمعنا وقوموا بزيارة مستودع GitHub الخاص بنا لمشاهدة الذكاء الاصطناعي وهو يعمل. استكشفوا خيارات الترخيص الخاصة بنا واكتشفوا المزيد حول الذكاء الاصطناعي في الزراعة و رؤية الكمبيوتر في التصنيع على صفحات الحلول الخاصة بنا.