إصلاح تحيز الذكاء الاصطناعي في مجموعات بيانات الذكاء الاصطناعي المرئي

تغير نماذج الذكاء الاصطناعي (AI) الطريقة التي نحل بها المشكلات، لكنها ليست مثالية. من السيارات ذاتية القيادة إلى الأدوات التشخيصية في الرعاية الصحية، نعتمد على الذكاء الاصطناعي لتفسير البيانات واتخاذ القرارات. ماذا يحدث عندما تكون البيانات نفسها معيبة؟

يشير التحيز في الذكاء الاصطناعي إلى أنماط عدم الاتساق التي تتطور في النماذج، غالبًا دون أن يدركها أحد. يمكن أن تتسبب هذه التحيزات في قيام النماذج بتقديم تنبؤات غير دقيقة أو غير متسقة أو حتى ضارة. في الرؤية الحاسوبية، يعود التحيز عادةً إلى مصدر رئيسي واحد: مجموعة البيانات. إذا كانت البيانات المستخدمة لتدريب النموذج غير متوازنة أو غير تمثيلية، فسوف يعكس النموذج هذه الفجوات.

دعونا نلقي نظرة فاحصة على كيفية تشكل تحيز مجموعة البيانات، وكيف يؤثر على نماذج الرؤية الحاسوبية، والخطوات التي يمكن للمطورين اتخاذها detect ومنعه. سنوضح أيضًا كيف يمكن لنماذج مثل Ultralytics YOLO11 يمكن أن تدعم الجهود المبذولة لبناء أنظمة ذكاء اصطناعي أكثر عدلاً وتعميمًا أفضل، مما يعني أنها تؤدي أداءً جيدًا على البيانات الجديدة غير المرئية وتخدم الجميع بشكل أكثر مساواة.

ما هو تحيز الذكاء الاصطناعي ولماذا هو مهم؟

يشير تحيز الذكاء الاصطناعي إلى أخطاء متسقة في نظام الذكاء الاصطناعي تؤدي إلى نتائج منحرفة أو غير دقيقة. بعبارات أبسط، يبدأ النموذج في تفضيل نوع واحد من المدخلات المرئية على الأنواع الأخرى، مما يؤثر على عدالة النموذج، ليس لأنه يعمل بشكل أفضل ولكن بسبب الطريقة التي تم تدريبه بها.

يمكن أن يكون هذا شائعًا بشكل خاص في رؤية الحاسوب، حيث تتعلم النماذج من البيانات المرئية. إذا كانت مجموعة البيانات تتضمن في الغالب نوعًا واحدًا من الكائنات أو المشاهد أو الأشخاص، فسيتعلم النموذج أنماطًا تعمل بشكل جيد لتلك الحالات فقط.

تخيل نموذجاً مدرباً في الغالب على صور حركة المرور من المدن الكبرى. إذا تم نشره في منطقة ريفية، فقد يخطئ النموذج في تصنيف تخطيطات الطرق غير المعتادة أو يفشل في detect أنواع المركبات التي لم يسبق له رؤيتها من قبل. هذا هو تحيز الذكاء الاصطناعي في العمل. يؤدي ذلك إلى دقة أقل وتعميم محدود، وهو ما يشير إلى قدرة النموذج على الأداء الجيد على مدخلات جديدة أو متنوعة.

في التطبيقات التي تكون فيها الدقة ضرورية، مثل الرعاية الصحية أو الأمن، فإن هذه الأخطاء ليست مجرد محبطة، بل يمكن أن تكون خطيرة. معالجة التحيز تدور حول الأداء والموثوقية والسلامة.

كيف يؤثر تحيز مجموعة البيانات على سلوك النموذج؟

عندما نتحدث عن تحيز مجموعة البيانات، فإننا نشير إلى عدم التوازن أو القيود في البيانات المستخدمة لتدريب النموذج. يحدث تحيز مجموعة البيانات عندما لا تعكس بيانات التدريب بشكل كافٍ التنوع الحقيقي للعالم الذي من المفترض أن تصممه.

نماذج رؤية الحاسوب لا تفهم العالم، بل تفهم الأنماط. إذا كانت الصور الوحيدة للكلاب التي تراها هي صور كلاب المسترد الذهبي في الفناء الخلفي، فقد لا تتعرف على كلب الهاسكي على طريق ثلجي.

الشكل 1. تساعد إعادة ترجيح بيانات المصدر في تحقيق دقة أفضل للنموذج.

‍

يسلط هذا الضوء على أحد التحديات الرئيسية التي يسببها تحيز مجموعة البيانات. يبني النموذج فهمه بناءً على ما يظهر له. إذا كانت بيانات التدريب هذه لا تعكس تنوع العالم الحقيقي، فإن سلوك النموذج يصبح ضيقًا وأقل فعالية في الظروف غير المألوفة.

غالبًا ما يكون أداء مصنفات الصور أسوأ بكثير عند اختبارها على مجموعة بيانات مختلفة عن تلك التي تم تدريبها عليها، حتى لو تم إنشاء كلتا مجموعتي البيانات لنفس المهمة. يمكن أن تؤدي التغييرات الصغيرة في الإضاءة أو الخلفيات أو زوايا الكاميرا إلى انخفاضات ملحوظة في الدقة. وهذا يدل على مدى سهولة تأثير تحيز مجموعة البيانات على قدرة النموذج على التعميم.

هذه ليست حالات هامشية. إنها إشارات إلى أن خط أنابيب البيانات الخاص بك لا يقل أهمية عن بنية النموذج الخاص بك.

أنواع التحيزات في بيانات تدريب الذكاء الاصطناعي

يمكن ملاحظة التحيز في عملية التطوير بطرق خفية، غالبًا أثناء جمع البيانات أو تصنيفها أو تنظيمها. فيما يلي ثلاثة أنواع رئيسية من التحيز التي يمكن أن تؤثر على بيانات التدريب الخاصة بك:

تحيز الاختيار

يمكن أن يحدث تحيز الاختيار عندما لا تمثل مجموعة البيانات التنوع الموجود في الاستخدام الواقعي. إذا تم تدريب نموذج للكشف عن المشاة فقط على صور واضحة في النهار، فلن يعمل بشكل جيد في الليل أو في الضباب. وبالتالي، فقد أخطأت عملية الاختيار حالات حاسمة.

الشكل 2. تمثيل مرئي لانحياز الاختيار حيث يتم اختيار مجموعة فرعية غير متنوعة فقط.

‍

يحدث هذا التحيز عندما لا تلتقط مجموعة البيانات النطاق الكامل لسيناريوهات العالم الحقيقي بسبب كيفية جمع البيانات. على سبيل المثال، قد يفشل نموذج الكشف عن المشاة الذي تم تدريبه فقط على صور واضحة أثناء النهار في الضباب أو الثلج أو الإضاءة المنخفضة. غالبًا ما يحدث هذا عندما يتم جمع البيانات في ظل ظروف مثالية أو مريحة، مما يحد من قدرة النموذج على الأداء في بيئات متنوعة. يساعد توسيع جهود الجمع لتشمل المزيد من الإعدادات المتنوعة في تقليل هذا النوع من التحيز.

يمكن أن ينشأ أيضًا في مجموعات البيانات المبنية من مصادر عبر الإنترنت، حيث قد يكون المحتوى منحرفًا بشدة نحو مواقع أو لغات أو سياقات اجتماعية واقتصادية معينة. وبدون بذل جهد متعمد لتنويع مجموعة البيانات، سيرث النموذج هذه القيود.

تحيز العلامات

يحدث تحيز التسمية عندما يطبق المعلقون البشريون تسميات غير صحيحة أو غير متسقة. قد يبدو وضع علامة خاطئة غير ضار، ولكن إذا حدث ذلك غالبًا، يبدأ النموذج في تعلم الارتباطات الخاطئة.

يمكن أن يؤدي وضع العلامات غير المتسق إلى إرباك النموذج أثناء التدريب، خاصة في المهام المعقدة مثل الكشف عن العناصر. على سبيل المثال، قد يصنف أحد معلمي البيانات مركبة على أنها "سيارة" بينما يصنف آخر مركبة مماثلة على أنها "شاحنة". تؤثر هذه التناقضات على قدرة النموذج على تعلم أنماط موثوقة، مما يؤدي إلى تقليل الدقة أثناء الاستدلال.

الشكل 3. ينشأ التحيز في مسارات البيانات من الاختلالات الواقعية.

‍

قد ينشأ تحيز العلامات أيضًا من إرشادات توضيحية غير واضحة أو تفسيرات مختلفة لنفس البيانات. يمكن أن يؤدي وضع معايير واضحة وموثقة لوضع العلامات وإجراء فحوصات لمراقبة الجودة إلى تقليل هذه التحديات بشكل كبير.

يُعد التدريب المستمر للمعلِّمين واستخدام أسلوب "تسمية الإجماع"، حيث يراجع عدة معلِّمين كل عينة، استراتيجيتين فعالتين لتقليل تحيز التسميات وتحسين جودة مجموعة البيانات.

تحيز التمثيل

غالبًا ما يعكس تحيز التمثيل أوجه عدم المساواة المجتمعية الأوسع. قد تفشل البيانات التي يتم جمعها في مناطق أكثر ثراءً أو اتصالاً في التقاط تنوع السكان أو البيئات الأقل تمثيلاً. تتطلب معالجة هذا التحيز الإدراج المتعمد للمجموعات والسياقات التي تم تجاهلها.

يحدث تحيز التمثيل عندما تكون بعض المجموعات أو الفئات ممثلة تمثيلاً ناقصًا في مجموعة البيانات. وقد تشمل هذه المجموعات الديموغرافية أو فئات الكائنات أو الظروف البيئية. إذا رأى النموذج لون بشرة واحدًا فقط، أو نوعًا واحدًا من الكائنات، أو نمط خلفية واحدًا، فسوف تعكس تنبؤاته هذا الخلل.

يمكننا ملاحظة هذا النوع من التحيز عندما يتم تضمين مجموعات أو فئات معينة بكميات أقل بكثير من غيرها. يمكن أن يؤدي ذلك إلى تحريف تنبؤات النموذج نحو الأمثلة المهيمنة في مجموعة البيانات. على سبيل المثال، قد يواجه نموذج التعرف على الوجه الذي تم تدريبه بشكل أساسي على تركيبة سكانية واحدة صعوبة في الأداء بدقة عبر جميع المستخدمين. على عكس تحيز الاختيار، المرتبط بتنوع البيانات، فإن تحيز التمثيل يتعلق بالتوازن بين المجموعات.

يمكن لعمليات تدقيق التنوع واستراتيجيات توسيع البيانات المستهدفة أن تساعد في ضمان تمثيل جميع التركيبة السكانية والفئات ذات الصلة بشكل صحيح في جميع أنحاء مجموعة بيانات التدريب.

كيفية detect التحيز في مجموعة البيانات والتخفيف من حدته

في عمليات النشر الواقعية، لا يعني التحيز في الذكاء الاصطناعي مجرد عدد قليل من التنبؤات غير الصحيحة. يمكن أن يؤدي إلى أنظمة تعمل بشكل جيد لبعض الأشخاص ولكن ليس للجميع.

في الذكاء الاصطناعي للسيارات، قد تعمل نماذج الكشف بشكل غير متسق عبر مجموعات المشاة، مما يؤدي إلى نتائج سلامة أقل للأفراد الممثلين تمثيلاً ناقصًا. المشكلة ليست نية النموذج. إنها المدخلات المرئية التي تم تدريبه عليها. حتى في الزراعة، يمكن أن يعني التحيز في اكتشاف الكائنات تحديدًا ضعيفًا للمحاصيل في ظل ظروف إضاءة أو طقس مختلفة. هذه هي العواقب الشائعة لتدريب النماذج على مجموعات بيانات محدودة أو غير متوازنة.

إصلاح التحيز في الذكاء الاصطناعي يبدأ بمعرفة أين تبحث. إذا كانت مجموعة التدريب الخاصة بك تفتقد إلى أمثلة رئيسية أو تمثل بشكل مفرط نطاقًا ضيقًا، فسوف يعكس النموذج الخاص بك هذه الفجوات. لهذا السبب يعد اكتشاف التحيز في الذكاء الاصطناعي خطوة حاسمة في كل خط أنابيب تطوير.

الشكل 4. الخطوات الرئيسية في تقليل التحيز في الذكاء الاصطناعي وتحسين العدالة.

‍

ابدأ بتحليل مجموعة البيانات الخاصة بك. انظر إلى التوزيع عبر الفئات والبيئات والإضاءة ومقاييس الكائنات والتركيبة السكانية. إذا كانت إحدى الفئات مهيمنة، فمن المحتمل أن يكون أداء النموذج الخاص بك ضعيفًا في الفئات الأخرى.

بعد ذلك، انظر إلى الأداء. هل يكون أداء النموذج أسوأ في إعدادات معينة أو لأنواع معينة من الكائنات؟ إذا كان الأمر كذلك، فهذه علامة على التحيز المكتسب، وعادةً ما يشير ذلك إلى البيانات.

تقييم على مستوى الشريحة أمر أساسي. قد يسجل النموذج دقة 90٪ في المتوسط ولكن 60٪ فقط في مجموعة أو حالة معينة. بدون التحقق من هذه الشرائح، لن تعرف أبدًا.

يُعد استخدام مقاييس الإنصاف أثناء التدريب والتقييم أداة قوية أخرى. تتجاوز هذه المقاييس درجات الدقة القياسية وتقيّم سلوك النموذج عبر مجموعات فرعية مختلفة من البيانات. فهي تساعد في إظهار النقاط العمياء التي قد تمر دون أن يلاحظها أحد.

تؤدي الشفافية في تكوين مجموعة البيانات واختبار النموذج إلى نماذج أفضل.

تحسين العدالة من خلال تنوع البيانات وزيادتها

بمجرد تحديد التحيز، فإن الخطوة التالية هي تضييق الفجوة. إحدى أكثر الطرق فعالية للقيام بذلك هي زيادة تنوع البيانات في نماذج الذكاء الاصطناعي. وهذا يعني جمع المزيد من العينات من السيناريوهات الممثلة تمثيلاً ناقصًا، سواء كانت صورًا طبية من مجموعات سكانية مختلفة أو ظروفًا بيئية غير عادية.

يمكن أن تكون إضافة المزيد من البيانات ذات قيمة، خاصةً عندما تزيد من التنوع. ومع ذلك، فإن تحسين العدالة يعتمد أيضًا على جمع الأنواع الصحيحة من الأمثلة. يجب أن تعكس هذه الأمثلة التباين الواقعي الذي من المحتمل أن يواجهه النموذج الخاص بك.

تعد زيادة البيانات إستراتيجية قيمة أخرى. يمكن أن يساعد قلب الكائنات وتدويرها وضبط الإضاءة وتغيير حجمها في محاكاة ظروف العالم الحقيقي المختلفة. لا تزيد الزيادة من تنوع مجموعة البيانات فحسب، بل تساعد أيضًا النموذج على أن يصبح أكثر قوة في مواجهة التغيرات في المظهر والإضاءة والسياق.

تتضمن معظم خطوط أنابيب التدريب الحديثة زيادة البيانات بشكل افتراضي، ولكن الاستخدام الاستراتيجي، مثل التركيز على التعديل بناءً على الاحتياجات الخاصة بالمهمة، هو ما يجعلها فعالة لتحقيق العدالة.

استخدام البيانات الاصطناعية لملء الفجوات

تشير البيانات الاصطناعية إلى البيانات التي يتم إنشاؤها اصطناعيًا والتي تحاكي أمثلة من العالم الحقيقي. يمكن أن تكون أداة مفيدة عندما تكون بعض السيناريوهات نادرة جدًا أو حساسة جدًا بحيث لا يمكن التقاطها في البرية.

على سبيل المثال، إذا كنت تقوم ببناء نموذج detect العيوب النادرة في الآلات أو انتهاكات حركة المرور في الحالات الحادة، يمكنك محاكاة تلك الحالات باستخدام بيانات اصطناعية. هذا يمنح نموذجك الفرصة للتعلم من الأحداث التي قد لا يواجهها كثيرًا في مجموعة التدريب الخاصة بك.

وجدت الدراسات أن إدخال بيانات اصطناعية مستهدفة في التدريب يمكن أن يقلل من تحيز مجموعة البيانات ويحسن الأداء عبر المجموعات والبيئات الديموغرافية.

تعمل البيانات الاصطناعية بشكل أفضل عند إقرانها بعينات من العالم الحقيقي. إنها تكمل مجموعة البيانات الخاصة بك؛ ولا تحل محلها.

كيف يدعم YOLO11 الذكاء الاصطناعي الأخلاقي

يعتمد بناء نماذج الذكاء الاصطناعي غير المتحيزة أيضًا على الأدوات التي تستخدمها. صُمم YOLO11 ليكون مرنًا وسهل الضبط وقابلًا للتكيف بدرجة كبيرة، مما يجعله مناسبًا جدًا لتقليل تحيز مجموعة البيانات.

يدعم YOLO11 تقنيات زيادة البيانات المتقدمة أثناء تدريب النموذج، والتي تقدم سياقات صور متنوعة وأمثلة مختلطة لتحسين تعميم النموذج وتقليل الإفراط في التخصيص.

يتميز YOLO11 أيضًا بهيكلية محسّنة للعمود الفقري والرقبة لاستخراج الميزات بشكل أكثر فعالية. تعمل هذه الترقية على تعزيز قدرة النموذج على detect التفاصيل الدقيقة، وهو أمر بالغ الأهمية في السيناريوهات غير الممثلة أو سيناريوهات الحافة حيث قد تواجه النماذج القياسية صعوبات.

نظرًا لسهولة إعادة تدريب YOLO11 ونشره عبر بيئات الحافة والسحابة، يمكن للفرق تحديد ثغرات الأداء وتحديث النموذج بسرعة عند اكتشاف التحيز في الميدان.

الذكاء الاصطناعي العادل ليس هدفًا لمرة واحدة. إنها دورة من التقييم والتعلم والتعديل. تساعد أدوات مثل YOLO11 في جعل هذه الدورة أسرع وأكثر إنتاجية.

النقاط الرئيسية

يؤثر تحيز الذكاء الاصطناعي على كل شيء بدءًا من الإنصاف إلى الأداء. غالباً ما ينبع تحيز الرؤية الحاسوبية من كيفية جمع مجموعات البيانات وتصنيفها وموازنتها. لحسن الحظ، هناك طرق مثبتة detect والتخفيف من حدته.

ابدأ بمراجعة بياناتك واختبار أداء النموذج عبر سيناريوهات مختلفة. استخدم جمع البيانات المستهدف والتوسيع والبيانات الاصطناعية لإنشاء تغطية تدريب أفضل.

يدعم YOLO11 سير العمل هذا من خلال تسهيل تدريب النماذج المخصصة، وتطبيق تقنيات التعزيز القوية، والاستجابة السريعة عند اكتشاف التحيز.

إن بناء ذكاء اصطناعي عادل ليس مجرد الشيء الصحيح الذي ينبغي فعله. بل هو أيضًا كيف تبني أنظمة أكثر ذكاءً وموثوقية.

انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع الرؤية الحاسوبية الخاصة بك؟ تحقق من خيارات الترخيص الخاصة بنا. اكتشف الذكاء الاصطناعي في التصنيع و Vision AI في الزراعة من خلال زيارة صفحات الحلول الخاصة بنا!

فهم تحيز الذكاء الاصطناعي وتحيز مجموعة البيانات في أنظمة رؤية الذكاء الاصطناعي

ما هو تحيز الذكاء الاصطناعي ولماذا هو مهم؟

كيف يؤثر تحيز مجموعة البيانات على سلوك النموذج؟