فهم سبب كون التعليق التوضيحي البشري في الحلقة (human-in-the-loop) أمراً أساسياً
شاهد كيف تعمل البيانات المشروحة بشرياً على تحسين دقة نماذج الرؤية الحاسوبية، ولماذا لا تزال الخبرة البشرية ضرورية لأنظمة الرؤية الحاسوبية الموثوقة.

قبل عشرين عاماً، لو قال أحدهم إنه يفكر في الحصول على روبوت للمساعدة في أعمال المنزل، لبدا الأمر خيالياً تماماً. ومع ذلك، نحن الآن في خضم طفرة الذكاء الاصطناعي، ويجري اختبار الروبوتات في سيناريوهات مشابهة.
أحد المجالات الرئيسية للذكاء الاصطناعي التي تدفع هذا التقدم هو الرؤية الحاسوبية، والتي تمنح الآلات القدرة على فهم الصور ومقاطع الفيديو. وبعبارة أخرى، يمكن تدريب نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 ونموذج Ultralytics YOLO26 القادم على مجموعات بيانات تتكون من بيانات بصرية وتصنيفات (annotations).
تساعد هذه التصنيفات النموذج على فهم البيانات البصرية. على سبيل المثال، تستخدم مجموعات بيانات اكتشاف الكائنات صناديق الإحاطة (bounding boxes) لرسم مستطيلات حول الكائنات محل الاهتمام. وهذا يمكن النموذج من اكتشاف وتحديد موقع تلك الكائنات في صور جديدة، حتى عندما يكون المشهد مزدحماً أو يكون الكائن مخفياً جزئياً.
تعتمد مهام الرؤية الحاسوبية الأخرى على أنواع مختلفة من التصنيفات. فمجموعات بيانات التجزئة (segmentation) تصنف المخطط التفصيلي الدقيق للكائن على مستوى البكسل، بينما تحدد مجموعات بيانات النقاط الرئيسية (keypoint) معالم محددة مثل مفاصل جسم الإنسان.
ومع ذلك، عبر جميع هذه التنسيقات، يظل أحد العوامل الحاسمة هو جودة واتساق التصنيفات. تتعلم النماذج مباشرة من البيانات التي تتدرب عليها، لذا إذا كانت التصنيفات غير متسقة أو خاطئة، فغالباً ما سينقل النموذج تلك الأخطاء إلى تنبؤاته.
حتى مع وجود الأتمتة، تظل مجموعات البيانات المصنفة بشرياً ضرورية، خاصة في المجالات عالية المخاطر مثل التصوير الطبي. يمكن لأخطاء التصنيف الصغيرة، مثل حدود الورم غير الدقيقة أو تفويت حالة غير طبيعية، أن تعلم النموذج نمطاً خاطئاً وتؤدي إلى تنبؤات غير آمنة لاحقاً. يوفر الخبراء البشريون الحقيقة الأساسية (ground truth) الدقيقة والتقييم الذي تتطلبه هذه التطبيقات.

الشكل 1. هناك حاجة لمجموعات بيانات مصنفة بشرياً. الصورة بواسطة المؤلف.
في هذه المقالة، سنلقي نظرة فاحصة على سبب كون البيانات المصنفة بشرياً ضرورية، حتى مع استمرار تقدم الذكاء الاصطناعي.
Link to this sectionالحاجة إلى تصنيف الصور ومقاطع الفيديو#
تتعلم نماذج الرؤية الحاسوبية بطريقة تشبه طريقتنا، من خلال رؤية العديد من الأمثلة. الفرق هو أنها تتعلم من خلال التدريب على مجموعات كبيرة من صور ومقاطع الفيديو التي يصنفها البشر مسبقاً. تعمل تلك التصنيفات كحقيقة أساسية، حيث تعلم النموذج أشياء مثل هذا أحد المشاة، أو هنا حدود الورم، أو ذاك الكائن سيارة.
نادراً ما تكون الصور المرئية في العالم الحقيقي نظيفة أو متسقة. يمكن أن تتغير الإضاءة وتجعل الكائن نفسه يبدو مختلفاً. قد تتداخل المركبات والأشخاص أو يكونون مخفيين جزئياً. يمكن أن تكون الخلفيات مزدحمة ومشتتة للانتباه. عندما تتضمن مجموعات البيانات تصنيفات دقيقة ومتسقة عبر هذه المواقف، تكون النماذج أكثر استعداداً لما ستواجهه خارج البيئات الخاضعة للتحكم.
إن تصنيف البيانات هو أكثر من مجرد رسم صناديق أو تتبع مخططات تفصيلية. إنه يتضمن تطبيق إرشادات واتخاذ قرارات عملية حول ما يعتبر كائناً، وأين يجب أن تكون حدوده، وماذا يجب فعله عندما يكون هناك شيء غير واضح. هذا الحكم البشري يحافظ على دقة البيانات وقابليتها للاستخدام.
في النهاية، يعمل نظام الرؤية الحاسوبية بنفس جودة البيانات المصنفة التي يتعلم منها. في التطبيقات ذات التأثير العالي مثل رصد السرطان في الفحوصات أو اكتشاف مخاطر الطريق للسيارات ذاتية القيادة، تُحدث التصنيفات الدقيقة من أشخاص مهرة فرقاً حقيقياً في الدقة والسلامة.
Link to this sectionصعود الأتمتة في تصنيف البيانات#
مع توسع نطاق الرؤية الحاسوبية ونمو مجموعات البيانات، أصبحت الأتمتة وسيلة شائعة لتسريع عملية التصنيف. بدلاً من تصنيف كل شيء يدوياً، تستخدم الفرق نماذج الذكاء الاصطناعي لإنتاج تمريرة أولى من التصنيفات.
يقوم البشر بعد ذلك بمراجعة النتائج، وإصلاح الأخطاء، والتعامل مع الحالات التي لا يستطيع النموذج تصنيفها بثقة. يسرع هذا النهج عملية التصنيف مع الحفاظ على جودة عالية.
فيما يلي بعض الطرق التي تساعد بها الأتمتة عادةً في تصنيف البيانات:
- التجزئة التلقائية (Auto segmentation): يمكن للنماذج اقتراح مخططات تفصيلية للكائنات أو أقنعة مستوى البكسل تلقائياً، مما يقلل من مقدار التتبع اليدوي الذي يحتاجه المصنفون.
- تتبع التدفق البصري (Optical flow tracking): عندما يتعلق الأمر بمقاطع الفيديو، يمكن لطرق التتبع متابعة كائن متحرك عبر الإطارات ونقل تصنيفه للأمام، مما يساعد في الحفاظ على اتساق التصنيفات بمرور الوقت.
- استيفاء الإطارات (Frame interpolation): يمكن للأدوات ملء تصنيفات الإطارات بين إطارين مصنفين باستخدام إشارات الحركة والتتبع، بحيث لا يضطر المصنفون لتصنيف كل إطار على حدة.
- التعلم النشط (Active learning): يمكن لخطوط أنابيب التدريب تحديد الأمثلة التي يجدها النموذج غير مؤكدة أو غير عادية وإرسالها إلى البشر أولاً، بحيث يذهب الجهد اليدوي نحو البيانات التي تحسن الأداء أكثر من غيرها.
Link to this sectionلماذا يظل تصنيف البيانات البشري مهماً جداً#
بينما يمكن للأتمتة تسريع التصنيف، لا تزال نماذج الذكاء الاصطناعي بحاجة إلى الحكم البشري لتظل دقيقة وموثوقة.
فيما يلي بعض المجالات الرئيسية التي تُحدث فيها الخبرة البشرية تأثيراً في تصنيف البيانات:
- فهم السياق: غالباً ما تكون الصور ومقاطع الفيديو الحقيقية فوضوية. يمكن للظلال والانعكاسات وضبابية الحركة والكائنات المتداخلة أن تربك الأدوات الآلية. يمكن للمصنفين البشريين تفسير ما يحدث فعلياً، بحيث تكون التصنيفات أكثر دقة.
- الحفاظ على اتساق التصنيفات: مع نمو مجموعات البيانات، يمكن للتصنيفات الآلية أن تنحرف أو تتفاوت عبر الدفعات. يمكن للبشر تدقيق وتصحيح ومواءمة التصنيفات بحيث تظل مجموعة البيانات متسقة من البداية إلى النهاية.
- تقليل التحيز والضرر: البشر أفضل في اكتشاف المحتوى الحساس والفروق الثقافية الدقيقة والأنماط التي يمكن أن تسبب تحيزاً. يساعد إشرافهم في جعل مجموعات البيانات أكثر إنصافاً وتجنب الضرر غير المقصود.
- تطبيق الخبرة في المجال: تحتاج بعض المهام إلى معرفة متخصصة، مثل تحديد التشوهات الطبية أو العيوب الصناعية. يمكن للخبراء تقديم تصنيفات دقيقة وحل الحالات الغامضة حتى يتعلم النموذج التفاصيل الصحيحة.
Link to this sectionنظرة عامة على التصنيف بمشاركة العنصر البشري#
تدمج أدوات ومنصات التصنيف مثل Roboflow الأتمتة لتسريع عملية التصنيف، غالباً باستخدام نماذج أساسية مثل Segment Anything Model 3 أو SAM3. SAM3 هو النموذج الأساسي للتجزئة القابل للتوجيه من Meta AI.
يمكنه اكتشاف وتجزئة وتتبع الكائنات في الصور ومقاطع الفيديو من خلال توجيهات بسيطة مثل النقرات أو صناديق الإحاطة أو العبارات النصية القصيرة، مما ينتج أقنعة تجزئة للكائنات المطابقة دون الحاجة إلى تدريب خاص بالمهمة لكل فئة جديدة.
حتى مع هذه الأساليب المتطورة، لا تزال هناك حاجة إلى خبراء بشريين لمراجعة التصنيفات وإتمامها. عندما تنتج الأدوات الآلية مسودة أولية، ويقوم البشر بالتحقق منها وتصحيحها وتنقيحها، يُعرف سير العمل هذا بالتصنيف بمشاركة العنصر البشري. هذا يحافظ على سرعة التصنيف مع ضمان أن التصنيفات النهائية دقيقة ومتسقة بما يكفي لتدريب نماذج موثوقة.

الشكل 2. نظرة على التصنيف بمشاركة العنصر البشري. (المصدر)
Link to this sectionمتى تنجح أتمتة التصنيف ومتى تفشل#
تعمل أتمتة التصنيف بشكل أفضل مع البيانات التي تأتي من بيئات خاضعة للتحكم. عادة ما تكون الصور التي يتم جمعها في المصانع أو المستودعات أو ممرات البيع بالتجزئة ذات إضاءة ثابتة ورؤية واضحة للكائنات، لذا يمكن للأدوات الآلية تصنيفها بدقة ومساعدة الفرق على التوسع بشكل أسرع بجهد يدوي أقل.
البيانات من الأماكن الأقل تحكماً أكثر تعقيداً. تتغير لقطات الأماكن الخارجية مع وقت اليوم والطقس، وغالباً ما تتضمن مشاهد الشوارع أو المنازل ازدحاماً، وضبابية الحركة، وكائنات تحجب بعضها البعض، والكثير من التداخل. تضيف الكائنات الصغيرة، أو الحدود الدقيقة، أو المواقف النادرة مجالاً أكبر للخطأ. النموذج الذي يعمل بشكل جيد على بيانات داخلية نظيفة قد لا يزال يواجه صعوبة في الصور المرئية الواقعية والفوضوية.
لهذا السبب لا يزال المدخل البشري مهماً. يمكن للبشر التدخل عندما يكون النموذج غير متأكد، وتفسير السياق الصعب، وإصلاح الأخطاء قبل أن تنتهي في مجموعة البيانات النهائية. يساعد التصنيف بمشاركة العنصر البشري في إبقاء الأتمتة قائمة على الظروف الواقعية ويحافظ على موثوقية النماذج بعد النشر.
Link to this sectionأين يمكن أن يُحدث التصنيف بمشاركة العنصر البشري فرقاً؟#
الآن بعد أن رأينا أين تعمل الأتمتة بشكل جيد وأين تعجز، دعنا نستكشف بعض التطبيقات التي يلعب فيها التصنيف بمشاركة العنصر البشري دوراً مهماً.
Link to this sectionاكتشاف العيوب في التصنيع#
فكر في سير ناقل في مصنع حيث تمر مئات الأجزاء تحت كاميرا كل دقيقة. معظم العيوب واضحة، ولكن في بعض الأحيان، يظهر صدع شعري بزاوية غريبة أو تحت وهج من ضوء. قد يفوته نظام آلي أو يصنفه على أنه نسيج سطح غير ضار، لكن يمكن للمراجع البشري اكتشاف العيب، وتصحيح التصنيف، والتأكد من أن النموذج يتعلم الفرق.
هذا هو دور التصنيف بمشاركة العنصر البشري في الفحص الصناعي. يمكن للأتمتة تصنيف أنواع العيوب الشائعة مسبقاً والعمل بسرعة عبر كميات كبيرة من الصور، لكن لا يزال البشر بحاجة للتحقق من النتائج، وشد الحدود، والتعامل مع الإخفاقات النادرة التي لا تظهر كثيراً في التدريب.
Link to this sectionالمركبات ذاتية القيادة والنقل الذكي#
وبالمثل، تستخدم المركبات ذاتية القيادة الرؤية الحاسوبية لرصد المشاة، وقراءة الإشارات، والتنقل في حركة المرور، لكن الطرق الحقيقية غير متوقعة. على سبيل المثال، يمكن للمشاة الذي يخرج من خلف سيارة متوقفة ليلاً أن يكون مخفياً جزئياً ويصعب رؤيته تحت الوهج.

الشكل 3. مثال على استخدام الرؤية الحاسوبية لتحليل حركة المرور. (المصدر)
يمكن للمصنفين البشريين تصنيف هذه الحالات النادرة والحرجة للسلامة أثناء التدريب حتى تتعلم النماذج الاستجابة الصحيحة، ليس فقط في الظروف العادية بل في اللحظات الأكثر أهمية. تُعد خطوة التصنيف بمشاركة العنصر البشري أساسية لتعليم الأنظمة التعامل مع الأحداث منخفضة التكرار التي يصعب التقاطها باستخدام الأتمتة وحدها.
Link to this sectionالطريق أمام مجموعات البيانات المصنفة بشرياً#
يصبح التصنيف بمشاركة العنصر البشري أكثر تعاوناً مع تقدم التكنولوجيا. ومن المثير للاهتمام أن نماذج لغة الرؤية (VLMs)، التي تتعلم من كل من الصور والنصوص، تُستخدم الآن لإنشاء تمريرة أولى من التصنيفات واقتراح إصلاحات من توجيهات بسيطة.
لذا بدلاً من مسح كل صورة يدوياً لتحديد ما يجب تصنيفه، يمكن للمصنف توجيه نموذج VLM بعبارة مثل "صنف جميع المشاة والسيارات وإشارات المرور" أو "جزئ جميع العيوب في هذا الجزء"، والحصول على مسودة تصنيفات للمراجعة.

الشكل 4. يمكن للنماذج متعددة الوسائط الكبيرة العمل مع المصنفين البشريين (المصدر)
هذا يقلل من وقت التصنيف لأن النموذج يمكنه التعامل مع العديد من الحالات المباشرة مقدماً، بحيث يمكن للبشر التركيز على مراجعة النتائج، وتصحيح الأمثلة الصعبة، والحفاظ على اتساق مجموعة البيانات. بدأت النماذج متعددة الوسائط الكبيرة أيضاً في توجيه المصنفين نحو العينات الأكثر عدم يقين، مما يجعل الجهد البشري أكثر استهدافاً ويحسن جودة مجموعة البيانات الإجمالية.
Link to this sectionأبرز النقاط#
تساعد الرؤية الحاسوبية الآلات على تفسير ما تراه والتفاعل معه، لكنها تعمل بشكل أفضل مع الخبرة البشرية في الحلقة. تحافظ البيانات المصنفة بشرياً على النماذج قائمة على الظروف الواقعية وتحسن موثوقية أدائها. مع عمل الأتمتة والحكم البشري جنباً إلى جنب، يمكن للفرق بناء أنظمة رؤية مؤثرة.
انضم إلى مجتمعنا النشط واستكشف الابتكارات مثل الذكاء الاصطناعي في الخدمات اللوجستية والذكاء الاصطناعي الرؤي في الروبوتات. قم بزيارة مستودع GitHub الخاص بنا لاكتشاف المزيد. للبدء بالرؤية الحاسوبية اليوم، تحقق من خيارات الترخيص الخاصة بنا.






