Yolo فيجن شنتشن
شنتشن
انضم الآن

فهم أهمية التعليقات التوضيحية التي يضيفها الإنسان

أبيرامي فينا

4 دقائق قراءة

12 ديسمبر 2025

اكتشف كيف تعمل البيانات المُعلّقة بواسطة البشر على تحسين دقة نماذج الرؤية الحاسوبية، ولماذا لا تزال الخبرة البشرية ضرورية لنظم الرؤية الاصطناعية الموثوقة.

قبل عشرين عامًا، لو قال أحدهم إنه يفكر في شراء روبوت لمساعدته في الأعمال المنزلية، لبدا ذلك أمرًا بعيد المنال. لكننا الآن في خضم طفرة الذكاء الاصطناعي، ويجري اختبار الروبوتات في سيناريوهات مماثلة.

أحد المجالات الرئيسية للذكاء الاصطناعي التي تدفع هذا التقدم هو الرؤية الحاسوبية، التي تمنح الآلات القدرة على فهم الصور ومقاطع الفيديو. بعبارة أخرى، نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 و Ultralytics المرتقب يمكن تدريبها على مجموعات بيانات تتكون من بيانات بصرية وتعليقات توضيحية. 

تساعد هذه التعليقات التوضيحية النموذج على فهم البيانات المرئية. على سبيل المثال، تستخدم مجموعات بيانات اكتشاف الكائنات مربعات حدودية لرسم مستطيلات حول الكائنات المهمة. وهذا يمكّن النموذج من detect تلك الكائنات detect في الصور الجديدة، حتى عندما تكون المشهد مزدحمة أو يكون الكائن مخفيًا جزئيًا.

تعتمد مهام الرؤية الحاسوبية الأخرى على أنواع مختلفة من التعليقات التوضيحية. تحدد مجموعات بيانات التجزئة المخطط الدقيق للكائن على مستوى البكسل، بينما تحدد مجموعات بيانات النقاط الرئيسية معالم محددة مثل المفاصل في جسم الإنسان. 

ومع ذلك، هناك عامل حاسم واحد مشترك بين جميع هذه التنسيقات، وهو جودة واتساق التسميات. تتعلم النماذج مباشرة من البيانات التي يتم تدريبها عليها، لذا إذا كانت التسميات غير متسقة أو خاطئة، فغالبًا ما ينقل النموذج هذه الأخطاء إلى تنبؤاته. 

حتى مع وجود الأتمتة، لا تزال مجموعات البيانات المُعلّقة من قبل البشر ضرورية، خاصة في المجالات عالية المخاطر مثل التصوير الطبي. يمكن أن تؤدي الأخطاء الصغيرة في التسمية، مثل عدم دقة حدود الورم أو عدم ملاحظة شذوذ ما، إلى تعليم النموذج نمطًا خاطئًا ويؤدي إلى تنبؤات غير آمنة في وقت لاحق. يوفر الخبراء البشريون الحقيقة الأساسية الدقيقة والحكم الذي تتطلبه هذه التطبيقات.

الشكل 1. هناك حاجة إلى مجموعات بيانات مذيلة بتعليقات بشرية. الصورة من إعداد المؤلف.

في هذه المقالة، سنلقي نظرة فاحصة على الأسباب التي تجعل البيانات المُعلّقة من قبل البشر ضرورية، حتى مع استمرار تقدم الذكاء الاصطناعي.

الحاجة إلى التعليقات التوضيحية على الصور ومقاطع الفيديو

تتعلم نماذج الرؤية الحاسوبية الكثير مثلنا، من خلال رؤية العديد من الأمثلة. الفرق هو أنها تتعلم من خلال التدريب على مجموعات كبيرة من الصور ومقاطع الفيديو التي يصنفها البشر مسبقًا. تعمل هذه التصنيفات كحقيقة أساسية، حيث تعلم النموذج أشياء مثل هذا هو مشاة، وهنا حدود الورم، أو أن هذا الكائن هو سيارة.

نادراً ما تكون الصور الواقعية واضحة أو متسقة. فقد تتغير الإضاءة وتجعل نفس الشيء يبدو مختلفاً. وقد يتداخل الأشخاص والمركبات أو يكونون مخفيين جزئياً. وقد تكون الخلفيات مزدحمة ومشتتة للانتباه. عندما تتضمن مجموعات البيانات تسميات دقيقة ومتسقة عبر هذه المواقف، تكون النماذج أكثر استعداداً لما ستواجهه خارج الإعدادات الخاضعة للرقابة.

كما أن تعليق البيانات هو أكثر من مجرد رسم مربعات أو تتبع الخطوط العريضة. فهو ينطوي على تطبيق المبادئ التوجيهية واتخاذ قرارات عملية بشأن ما يعتبر كائنًا، وأين يجب أن تكون حدوده، وماذا يجب فعله عندما يكون هناك شيء غير واضح. هذا الحكم البشري يحافظ على دقة البيانات وقابليتها للاستخدام.

في النهاية، لا يعمل نظام الرؤية الحاسوبية إلا بقدر جودة البيانات الموسومة التي يتعلم منها. في التطبيقات عالية التأثير مثل اكتشاف السرطان في الفحوصات أو الكشف عن مخاطر الطرق للسيارات ذاتية القيادة، فإن التسميات الدقيقة من الأشخاص المهرة تحدث فرقًا حقيقيًا في الدقة والسلامة.

صعود الأتمتة في تعليق البيانات

مع توسع نطاق الرؤية الحاسوبية ونمو قواعد البيانات، أصبحت الأتمتة طريقة شائعة لتسريع عملية التعليق التوضيحي. بدلاً من تصنيف كل شيء يدويًا، تستخدم الفرق نماذج الذكاء الاصطناعي لإنتاج تصنيف أولي. 

ثم يقوم البشر بمراجعة النتائج وتصحيح الأخطاء ومعالجة الحالات التي لا يستطيع النموذج تصنيفها بثقة. هذا النهج يسرع عملية التعليق مع الحفاظ على جودة عالية.

فيما يلي بعض الطرق التي تساعد بها الأتمتة عادةً في تعليق البيانات:

  • التقسيم التلقائي: يمكن للنماذج أن تقترح تلقائيًا مخططات الكائنات أو أقنعة على مستوى البكسل، مما يقلل من حجم التتبع اليدوي الذي يتعين على المعلقين القيام به.
  • تتبع التدفق البصري: عندما يتعلق الأمر بالفيديوهات، يمكن لطرق التتبع أن تتبع كائنًا متحركًا عبر الإطارات وتحمل علامته إلى الأمام، مما يساعد في الحفاظ على اتساق التعليقات التوضيحية بمرور الوقت.
  • استيفاء الإطارات: يمكن للأدوات ملء التسميات للإطارات بين إطارين مسمايين باستخدام إشارات الحركة والتتبع، بحيث لا يضطر المعلقون إلى تسمية كل إطار على حدة.
  • التعلم النشط: يمكن لخطوط التدريب تحديد الأمثلة التي يجدها النموذج غير مؤكدة أو غير عادية وإرسالها إلى البشر أولاً، بحيث يتم توجيه الجهد اليدوي نحو البيانات التي تحسن الأداء بشكل أكبر.

لماذا لا تزال تعليقات البيانات البشرية مهمة للغاية

في حين أن الأتمتة يمكن أن تسرع عملية وضع العلامات، إلا أن نماذج الذكاء الاصطناعي لا تزال بحاجة إلى الحكم البشري لتظل دقيقة وموثوقة.

فيما يلي بعض المجالات الرئيسية التي تؤثر فيها الخبرة البشرية في تعليق البيانات:

  • فهم السياق: غالبًا ما تكون الصور والفيديوهات الحقيقية غير واضحة. فالظلال والانعكاسات وضبابية الحركة وتداخل الكائنات يمكن أن تربك الأدوات الآلية. يمكن للمعلقين البشريين تفسير ما يحدث بالفعل، وبالتالي تكون التسميات أكثر دقة.
  • الحفاظ على اتساق التسميات: مع نمو مجموعات البيانات، قد تتغير التسميات الآلية أو تختلف بين الدفعات. يمكن للبشر مراجعة التسميات وتصحيحها ومواءمتها بحيث تظل مجموعة البيانات متسقة من البداية إلى النهاية.
  • الحد من التحيز والضرر: الناس أكثر قدرة على اكتشاف المحتوى الحساس والفروق الثقافية الدقيقة والأنماط التي قد تؤدي إلى التحيز. تساعد مراقبتهم في جعل مجموعات البيانات أكثر عدلاً وتجنب الضرر غير المقصود.
  • تطبيق الخبرة في الموضوع: تتطلب بعض المهام معرفة في المجال، مثل تحديد الحالات الطبية غير الطبيعية أو العيوب الصناعية. يمكن للخبراء توفير تسميات دقيقة وحل الحالات الغامضة حتى يتعلم النموذج التفاصيل الصحيحة.

نظرة عامة على التعليقات التوضيحية التي يشارك فيها الإنسان

Roboflow أدوات ومنصات التعليق التوضيحي مثل Roboflow الأتمتة لتسريع عملية وضع العلامات، غالبًا باستخدام نماذج أساسية مثل Segment Anything Model 3 أو SAM3. SAM3 هو نموذج أساسي للتقسيم القابل للتنفيذ من Meta AI. 

يمكنه detect segment track في الصور ومقاطع الفيديو من خلال مطالبات بسيطة مثل النقرات أو المربعات المحيطة أو العبارات النصية القصيرة، مما ينتج أقنعة تقسيم لمطابقة الكائنات دون الحاجة إلى تدريب خاص بالمهمة لكل فئة جديدة.

حتى مع وجود هذه الأساليب المتطورة، لا تزال هناك حاجة إلى خبراء بشريين لمراجعة التعليقات التوضيحية ووضع اللمسات الأخيرة عليها. عندما تنتج الأدوات الآلية مسودة أولية، ويقوم البشر بالتحقق منها وتصحيحها وصقلها، يُعرف سير العمل هذا باسم التعليقات التوضيحية البشرية. وهذا يحافظ على سرعة التعليقات التوضيحية مع ضمان دقة واتساق العلامات النهائية بما يكفي لتدريب نماذج موثوقة.

الشكل 2. نظرة على التعليقات التوضيحية التي يشارك فيها الإنسان. (المصدر)

متى تعمل الأتمتة للتعليق التوضيحي ومتى لا تعمل

يعمل التعليق التلقائي بشكل أفضل مع البيانات التي تأتي من أماكن خاضعة للرقابة. عادةً ما تتمتع الصور التي يتم التقاطها في المصانع أو المستودعات أو أروقة المتاجر بإضاءة ثابتة ورؤية واضحة للأشياء، لذا يمكن للأدوات التلقائية تصنيفها بدقة ومساعدة الفرق على التوسع بشكل أسرع مع تقليل العمل اليدوي.

البيانات من الأماكن الأقل تحكماً أكثر تعقيداً. تتغير اللقطات الخارجية مع الوقت من اليوم والطقس، وغالباً ما تتضمن المشاهد من الشوارع أو المنازل فوضى، وضبابية الحركة، وأشياء تحجب بعضها البعض، والكثير من التداخل. تضيف الأشياء الصغيرة، والحدود الدقيقة، أو المواقف النادرة المزيد من مجال الخطأ. قد يواجه النموذج الذي يعمل بشكل جيد على البيانات الداخلية النظيفة صعوبة في التعامل مع الصور الفوضوية في العالم الحقيقي.

لهذا السبب لا يزال دور الإنسان مهمًا. يمكن للناس التدخل عندما يكون النموذج غير مؤكد، وتفسير السياق المعقد، وتصحيح الأخطاء قبل أن تصل إلى مجموعة البيانات النهائية. تساعد التعليقات التوضيحية التي يضيفها الإنسان على بقاء الأتمتة متوافقة مع الظروف الواقعية والحفاظ على موثوقية النماذج بعد نشرها.

أين يمكن أن تحدث التعليقات التوضيحية التي يشارك فيها الإنسان فرقًا؟

الآن بعد أن رأينا المجالات التي تعمل فيها الأتمتة بشكل جيد والمجالات التي تقصر فيها، دعونا نستكشف بعض التطبيقات التي تلعب فيها التعليقات التوضيحية البشرية دوراً مهماً.

كشف العيوب في التصنيع

لنتخيل حزام ناقل في مصنع حيث تمر مئات القطع تحت الكاميرا كل دقيقة. معظم العيوب واضحة، ولكن بين الحين والآخر، يظهر شق صغير بزاوية غريبة أو تحت وهج الضوء. قد يفوت النظام الآلي هذا الشق أو يصنفه على أنه نسيج سطحي غير ضار، ولكن المراجع البشري يمكنه اكتشاف العيب وتصحيح التعليق والتأكد من أن النموذج يتعلم الفرق.

هذا هو دور التعليقات التوضيحية البشرية في التفتيش الصناعي. يمكن للأتمتة أن تضع علامات مسبقة على أنواع العيوب الشائعة وتسرع من معالجة كميات كبيرة من الصور، ولكن لا يزال البشر بحاجة إلى التحقق من النتائج، وتشديد الحدود، والتعامل مع الأعطال النادرة التي لا تظهر كثيرًا في التدريب. 

المركبات ذاتية القيادة والنقل الذكي

وبالمثل، تستخدم المركبات ذاتية القيادة الرؤية الحاسوبية لاكتشاف المشاة وقراءة الإشارات والتنقل في حركة المرور، ولكن الطرق الحقيقية لا يمكن التنبؤ بها. على سبيل المثال، قد يكون المشاة الذي يخرج من خلف سيارة متوقفة ليلاً مخفيًا جزئيًا ويصعب رؤيته تحت وهج الضوء.

الشكل 3. مثال على استخدام الرؤية الحاسوبية لتحليل حركة المرور. (المصدر)

يمكن للمعلقين البشريين تصنيف هذه الحالات النادرة والحرجة من حيث السلامة أثناء التدريب حتى تتعلم النماذج الاستجابة الصحيحة، ليس فقط في الظروف العادية ولكن في اللحظات الأكثر أهمية. هذه الخطوة التي يتدخل فيها الإنسان هي مفتاح لتعليم الأنظمة كيفية التعامل مع الأحداث منخفضة التردد التي يصعب التقاطها باستخدام الأتمتة وحدها.

الطريق أمام مجموعات البيانات المُعلّقة من قبل البشر

أصبحت عملية التعليق البشري أكثر تعاونًا مع تقدم التكنولوجيا. ومن المثير للاهتمام أن نماذج لغة الرؤية (VLMs)، التي تتعلم من الصور والنصوص على حد سواء، تُستخدم الآن لإنشاء تمريرة أولى من العلامات واقتراح إصلاحات من مطالبات بسيطة. 

لذلك، بدلاً من مسح كل صورة يدويًا لتحديد ما يجب تسميته، يمكن للمعلق أن يطلب من VLM عبارة مثل "تسمية جميع المشاة والسيارات وإشارات المرور" أوsegment العيوب في هذا الجزء"، والحصول على مجموعة مسودة من التعليقات التوضيحية لمراجعتها.

الشكل 4. يمكن للنماذج المتعددة الوسائط الكبيرة أن تعمل مع المعلقين البشريين (المصدر)

وهذا يقلل من وقت التعليق التوضيحي لأن النموذج يمكنه التعامل مع العديد من الحالات البسيطة مسبقًا، بحيث يمكن للبشر التركيز على مراجعة النتائج وتصحيح الأمثلة الصعبة والحفاظ على اتساق مجموعة البيانات. كما بدأت النماذج المتعددة الوسائط الكبيرة في توجيه المعلقين التوضيحيين نحو العينات الأكثر غموضًا، مما يجعل الجهد البشري أكثر استهدافًا ويحسن جودة مجموعة البيانات بشكل عام.

النقاط الرئيسية

تساعد الرؤية الحاسوبية الآلات على تفسير ما تراه والاستجابة له، ولكنها تعمل بشكل أفضل مع خبرة الإنسان في الحلقة. البيانات المُعلّقة من قبل الإنسان تبقي النماذج متوافقة مع الظروف الواقعية وتحسن من موثوقية أدائها. مع العمل جنبًا إلى جنب بين الأتمتة والحكم البشري، يمكن للفرق بناء أنظمة رؤية مؤثرة.

انضم إلى مجتمعنا النشط واستكشف الابتكارات مثل الذكاء الاصطناعي في مجال الخدمات اللوجستية والرؤية الاصطناعية في مجال الروبوتات. تفضل بزيارة مستودع GitHub الخاص بنا لاكتشاف المزيد. لبدء استخدام الرؤية الحاسوبية اليوم، تحقق من خيارات الترخيص المتاحة لدينا.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا