اكتشف كيف تساعد إضافة تنويعات واقعية إلى بيانات التدريب من خلال زيادة البيانات على تحسين متانة نموذج الذكاء الاصطناعي وأدائه في العالم الواقعي.
اكتشف كيف تساعد إضافة تنويعات واقعية إلى بيانات التدريب من خلال زيادة البيانات على تحسين متانة نموذج الذكاء الاصطناعي وأدائه في العالم الواقعي.
يعد الاختبار جزءًا مهمًا من بناء أي حل تقني. فهو يوضح للفرق كيفية عمل النظام بالفعل قبل تشغيله ويسمح لهم بإصلاح المشكلات في وقت مبكر. وينطبق هذا على العديد من المجالات، بما في ذلك الذكاء الاصطناعي، حيث يُتوقع من النماذج التعامل مع ظروف غير متوقعة في العالم الحقيقي بمجرد نشرها.
على سبيل المثال، الرؤية الحاسوبية هي فرع من فروع الذكاء الاصطناعي يعلم الآلات فهم الصور ومقاطع الفيديو. تدعم نماذج الرؤية الحاسوبية مثل Ultralytics مهام مثل اكتشاف الكائنات وتجزئة الحالات وتصنيف الصور.
يمكن استخدامها في العديد من الصناعات لتطبيقات مثل مراقبة المرضى، وتحليل حركة المرور، والدفع الآلي، وفحص الجودة في التصنيع. ومع ذلك، حتى مع وجود نماذج متقدمة وبيانات تدريب عالية الجودة، لا تزال حلول Vision AI تواجه صعوبات عندما تتعامل مع تغيرات العالم الحقيقي مثل تغير الإضاءة أو الحركة أو الأجسام التي تحجب الرؤية جزئيًا.
يحدث هذا لأن النماذج تتعلم من الأمثلة التي تُعطى لها أثناء التدريب. إذا لم تكن قد شاهدت من قبل ظروفًا مثل الوهج أو الضبابية الناتجة عن الحركة أو الرؤية الجزئية، فمن غير المرجح أن تتعرف على الأشياء بشكل صحيح في تلك السيناريوهات.
إحدى طرق تحسين متانة النموذج هي من خلال زيادة البيانات. بدلاً من جمع كميات كبيرة من البيانات الجديدة، يمكن للمهندسين إجراء تغييرات صغيرة وذات مغزى على الصور الموجودة، مثل ضبط الإضاءة أو الاقتصاص أو مزج الصور. يساعد ذلك النموذج على تعلم التعرف على نفس الكائنات في نطاق أوسع من المواقف.
في هذه المقالة، سوف نستكشف كيف تعزز زيادة البيانات متانة النموذج وموثوقية أنظمة الذكاء الاصطناعي البصري عند نشرها خارج الإعدادات الخاضعة للرقابة. لنبدأ!
قبل أن نتعمق في موضوع زيادة البيانات، دعونا نناقش كيفية معرفة ما إذا كان نموذج الرؤية الحاسوبية جاهزًا بالفعل للاستخدام في العالم الواقعي.
يستمر النموذج القوي في الأداء الجيد حتى عندما تتغير الظروف، بدلاً من العمل فقط على الصور النظيفة والمصنفة بشكل مثالي. فيما يلي بعض العوامل العملية التي يجب مراعاتها عند تقييم قوة نموذج الذكاء الاصطناعي:
لا تعني النتائج الجيدة في الصور النقية والملتقطة بشكل مثالي دائمًا أداءً قويًا في العالم الحقيقي. تساعد الاختبارات المنتظمة في ظروف متنوعة على إظهار مدى جودة أداء النموذج بعد نشره.
يمكن أن يتغير مظهر الكائن في الصورة اعتمادًا على الإضاءة أو الزاوية أو المسافة أو الخلفية. عند تدريب نموذج الرؤية الحاسوبية، يجب أن تتضمن مجموعة البيانات التي يتعلم منها هذا النوع من التباين حتى يتمكن من الأداء الجيد في بيئات غير متوقعة.
توسع زيادة البيانات مجموعة بيانات التدريب عن طريق إنشاء أمثلة إضافية من الصور التي لديك بالفعل. ويتم ذلك عن طريق تطبيق تغييرات مقصودة مثل تدوير الصورة أو قلبها أو ضبط السطوع أو قص جزء منها.
على سبيل المثال، تخيل أن لديك صورة واحدة فقط لقط. إذا قمت بتدوير الصورة أو تغيير سطوعها، يمكنك إنشاء عدة نسخ جديدة من تلك الصورة الواحدة. تبدو كل نسخة مختلفة قليلاً، لكنها لا تزال صورة لنفس القط. تساعد هذه الاختلافات في تعليم النموذج أن الكائن يمكن أن يبدو مختلفًا بينما يظل هو نفسه.

أثناء تدريب النموذج، يمكن دمج زيادة البيانات مباشرة في مسار التدريب. بدلاً من إنشاء نسخ جديدة من الصور وتخزينها يدويًا، يمكن تطبيق تحويلات عشوائية عند تحميل كل صورة.
وهذا يعني أن النموذج يرى نسخة مختلفة قليلاً من الصورة في كل مرة، سواء كانت تبدو أكثر سطوعًا أو مقلوبة أو مخفية جزئيًا. يمكن لتقنيات مثل المحو العشوائي إزالة مناطق صغيرة من الصورة لمحاكاة المواقف الواقعية التي يكون فيها الكائن محجوبًا أو مرئيًا جزئيًا فقط.

إن رؤية العديد من الإصدارات المختلفة لنفس الصورة تمكن النموذج من تعلم الميزات المهمة، بدلاً من الاعتماد على مثال واحد مثالي. هذا التنوع يبني متانة نموذج الذكاء الاصطناعي بحيث يمكنه الأداء بشكل أكثر موثوقية في ظروف العالم الحقيقي.
فيما يلي بعض تقنيات زيادة البيانات المستخدمة لإدخال تنوع في صور التدريب:

يمكن أن تؤدي إدارة مجموعات البيانات وإنشاء اختلافات في الصور وكتابة كود التحويل إلى إضافة خطوات إضافية إلى عملية إنشاء تطبيق الرؤية الحاسوبية. تساعد Python Ultralytics Python في تبسيط هذه العملية من خلال توفير واجهة واحدة لتدريب وتشغيل ونشرYOLO Ultralytics YOLO مثل YOLO26. كجزء من هذا الجهد لتبسيط سير عمل التدريب، تتضمن الحزمة زيادة بيانات مدمجة Ultralytics ومُحسّنة YOLO .
كما أنه يدعم عمليات تكامل مفيدة تغني عن الحاجة إلى أدوات منفصلة أو أكواد مخصصة. وعلى وجه التحديد، بالنسبة لتعزيز البيانات، يتكامل الحزمة مع Albumentations، وهي مكتبة تعزيز الصور المستخدمة على نطاق واسع. يتيح هذا التكامل تطبيق التعزيزات تلقائيًا أثناء التدريب، دون الحاجة إلى نصوص برمجية إضافية أو أكواد مخصصة.
هناك عامل آخر يؤثر على متانة النموذج وهو جودة التعليقات التوضيحية. تساعد العلامات النظيفة والدقيقة، التي يتم إنشاؤها وإدارتها باستخدام أدوات التعليقات التوضيحية مثل Roboflow النموذج على فهم مكان الكائنات وشكلها.
أثناء التدريب، يتم تطبيق عمليات زيادة البيانات مثل الانقلابات والتقسيمات والتدوير بشكل ديناميكي، ويتم تعديل التعليقات التوضيحية تلقائيًا لتتوافق مع هذه التغييرات. عندما تكون التسميات دقيقة، تعمل هذه العملية بسلاسة وتزود النموذج بالعديد من الأمثلة الواقعية لنفس المشهد.
إذا كانت التعليقات التوضيحية غير دقيقة أو غير متسقة، فقد تتكرر هذه الأخطاء في الصور المعززة، مما قد يقلل من فعالية التدريب. يمنع البدء بتعليقات توضيحية دقيقة انتشار هذه الأخطاء ويساهم في تحسين متانة النموذج.
بعد ذلك، دعونا نستعرض أمثلة على كيفية مساهمة زيادة البيانات في تعزيز متانة نموذج الذكاء الاصطناعي في التطبيقات الواقعية.
غالبًا ما تُستخدم الصور الاصطناعية لتدريب أنظمة الكشف عن الأشياء عندما تكون البيانات الحقيقية محدودة أو حساسة أو يصعب جمعها. فهي تتيح للفرق إنشاء أمثلة للمنتجات والبيئات وزوايا الكاميرا بسرعة دون الحاجة إلى التقاط كل سيناريو في الحياة الواقعية.
ومع ذلك، قد تبدو مجموعات البيانات الاصطناعية في بعض الأحيان نظيفة للغاية مقارنة باللقطات الواقعية، حيث تتغير الإضاءة وتتداخل الكائنات وتشمل المشاهد فوضى في الخلفية. تساعد زيادة البيانات في سد هذه الفجوة من خلال إدخال تغييرات واقعية، مثل الإضاءة المختلفة أو الضوضاء أو وضع الكائنات، بحيث يتعلم النموذج كيفية التعامل مع أنواع الظروف التي سيواجهها عند نشره.
على سبيل المثال، في دراسة حديثة، تم تدريب YOLO11 بالكامل على صور اصطناعية، وأضيفت زيادة في البيانات لإدخال تنوع إضافي. وقد لعب ذلك دورًا في تعلم النموذج التعرف على الأشياء بشكل أوسع. وقد أدى النموذج أداءً جيدًا عند اختباره على صور حقيقية، على الرغم من أنه لم يسبق له أن شاهد بيانات من العالم الحقيقي أثناء التدريب.
غالبًا ما تكون مجموعات بيانات التصوير الطبي محدودة، ويمكن أن تختلف عمليات المسح نفسها بناءً على نوع المعدات أو إعدادات التصوير أو البيئة السريرية. قد تؤدي الاختلافات في تشريح المريض أو الزوايا أو الإضاءة أو الضوضاء البصرية إلى صعوبة تعلم نماذج الرؤية الحاسوبية للأنماط التي يمكن تعميمها بشكل جيد على جميع المرضى والمستشفيات.
يساعد توسيع البيانات في معالجة هذه المشكلة من خلال إنشاء متغيرات متعددة لنفس المسح الضوئي أثناء التدريب، مثل إضافة ضوضاء أو تغيير الصورة قليلاً أو تطبيق تشوهات صغيرة. تجعل هذه التغييرات بيانات التدريب أكثر تمثيلاً للظروف السريرية الحقيقية.
على سبيل المثال، في دراسة تصوير طبية للأطفال، استخدم الباحثون YOLO11 التشريحي وقاموا بتدريبه على بيانات طبية معززة. وأدخلوا بعض التغييرات مثل إضافة ضوضاء وتغييرات طفيفة في الموضع وتشوهات صغيرة لجعل الصور أكثر واقعية.

من خلال التعلم من هذه الاختلافات، ركز النموذج على السمات التشريحية المهمة بدلاً من الاختلافات السطحية. وهذا ما جعل نتائج التجزئة أكثر استقرارًا عبر مختلف عمليات المسح وحالات المرضى.
يعد جمع بيانات متنوعة أمرًا صعبًا، ولكن زيادة البيانات تسمح للنماذج بالتعلم من نطاق أوسع من الظروف البصرية. وينتج عن ذلك نماذج أكثر قوة عند التعامل مع حالات الحجب وتغيرات الإضاءة والمشاهد المزدحمة. وبشكل عام، يساعد ذلك النماذج على الأداء بشكل أكثر موثوقية خارج بيئات التدريب الخاضعة للرقابة.
انضم إلى مجتمعنا واستكشف أحدث ما توصلنا إليه في مجال الذكاء الاصطناعي البصري على مستودع GitHub الخاص بنا. قم بزيارة صفحات الحلول الخاصة بنا لمعرفة كيف أن تطبيقات مثل الذكاء الاصطناعي في التصنيع والرؤية الحاسوبية في مجال الرعاية الصحية تقود التقدم، وتحقق من خيارات الترخيص لدينا لتشغيل حل الذكاء الاصطناعي التالي.