اكتشف كيف تعمل البيانات المُعلّقة بواسطة البشر على تحسين دقة نماذج الرؤية الحاسوبية، ولماذا لا تزال الخبرة البشرية ضرورية لنظم الرؤية الاصطناعية الموثوقة.

اكتشف كيف تعمل البيانات المُعلّقة بواسطة البشر على تحسين دقة نماذج الرؤية الحاسوبية، ولماذا لا تزال الخبرة البشرية ضرورية لنظم الرؤية الاصطناعية الموثوقة.

قبل عشرين عامًا، لو قال أحدهم إنه يفكر في شراء روبوت لمساعدته في الأعمال المنزلية، لبدا ذلك أمرًا بعيد المنال. لكننا الآن في خضم طفرة الذكاء الاصطناعي، ويجري اختبار الروبوتات في سيناريوهات مماثلة.
أحد المجالات الرئيسية للذكاء الاصطناعي التي تدفع هذا التقدم هو الرؤية الحاسوبية، التي تمنح الآلات القدرة على فهم الصور ومقاطع الفيديو. بعبارة أخرى، نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 و Ultralytics المرتقب يمكن تدريبها على مجموعات بيانات تتكون من بيانات بصرية وتعليقات توضيحية.
تساعد هذه التعليقات التوضيحية النموذج على فهم البيانات المرئية. على سبيل المثال، تستخدم مجموعات بيانات اكتشاف الكائنات مربعات حدودية لرسم مستطيلات حول الكائنات المهمة. وهذا يمكّن النموذج من detect تلك الكائنات detect في الصور الجديدة، حتى عندما تكون المشهد مزدحمة أو يكون الكائن مخفيًا جزئيًا.
تعتمد مهام الرؤية الحاسوبية الأخرى على أنواع مختلفة من التعليقات التوضيحية. تحدد مجموعات بيانات التجزئة المخطط الدقيق للكائن على مستوى البكسل، بينما تحدد مجموعات بيانات النقاط الرئيسية معالم محددة مثل المفاصل في جسم الإنسان.
ومع ذلك، هناك عامل حاسم واحد مشترك بين جميع هذه التنسيقات، وهو جودة واتساق التسميات. تتعلم النماذج مباشرة من البيانات التي يتم تدريبها عليها، لذا إذا كانت التسميات غير متسقة أو خاطئة، فغالبًا ما ينقل النموذج هذه الأخطاء إلى تنبؤاته.
حتى مع وجود الأتمتة، لا تزال مجموعات البيانات المُعلّقة من قبل البشر ضرورية، خاصة في المجالات عالية المخاطر مثل التصوير الطبي. يمكن أن تؤدي الأخطاء الصغيرة في التسمية، مثل عدم دقة حدود الورم أو عدم ملاحظة شذوذ ما، إلى تعليم النموذج نمطًا خاطئًا ويؤدي إلى تنبؤات غير آمنة في وقت لاحق. يوفر الخبراء البشريون الحقيقة الأساسية الدقيقة والحكم الذي تتطلبه هذه التطبيقات.
.webp)
في هذه المقالة، سنلقي نظرة فاحصة على الأسباب التي تجعل البيانات المُعلّقة من قبل البشر ضرورية، حتى مع استمرار تقدم الذكاء الاصطناعي.
تتعلم نماذج الرؤية الحاسوبية الكثير مثلنا، من خلال رؤية العديد من الأمثلة. الفرق هو أنها تتعلم من خلال التدريب على مجموعات كبيرة من الصور ومقاطع الفيديو التي يصنفها البشر مسبقًا. تعمل هذه التصنيفات كحقيقة أساسية، حيث تعلم النموذج أشياء مثل هذا هو مشاة، وهنا حدود الورم، أو أن هذا الكائن هو سيارة.
نادراً ما تكون الصور الواقعية واضحة أو متسقة. فقد تتغير الإضاءة وتجعل نفس الشيء يبدو مختلفاً. وقد يتداخل الأشخاص والمركبات أو يكونون مخفيين جزئياً. وقد تكون الخلفيات مزدحمة ومشتتة للانتباه. عندما تتضمن مجموعات البيانات تسميات دقيقة ومتسقة عبر هذه المواقف، تكون النماذج أكثر استعداداً لما ستواجهه خارج الإعدادات الخاضعة للرقابة.
كما أن تعليق البيانات هو أكثر من مجرد رسم مربعات أو تتبع الخطوط العريضة. فهو ينطوي على تطبيق المبادئ التوجيهية واتخاذ قرارات عملية بشأن ما يعتبر كائنًا، وأين يجب أن تكون حدوده، وماذا يجب فعله عندما يكون هناك شيء غير واضح. هذا الحكم البشري يحافظ على دقة البيانات وقابليتها للاستخدام.
في النهاية، لا يعمل نظام الرؤية الحاسوبية إلا بقدر جودة البيانات الموسومة التي يتعلم منها. في التطبيقات عالية التأثير مثل اكتشاف السرطان في الفحوصات أو الكشف عن مخاطر الطرق للسيارات ذاتية القيادة، فإن التسميات الدقيقة من الأشخاص المهرة تحدث فرقًا حقيقيًا في الدقة والسلامة.
مع توسع نطاق الرؤية الحاسوبية ونمو قواعد البيانات، أصبحت الأتمتة طريقة شائعة لتسريع عملية التعليق التوضيحي. بدلاً من تصنيف كل شيء يدويًا، تستخدم الفرق نماذج الذكاء الاصطناعي لإنتاج تصنيف أولي.
ثم يقوم البشر بمراجعة النتائج وتصحيح الأخطاء ومعالجة الحالات التي لا يستطيع النموذج تصنيفها بثقة. هذا النهج يسرع عملية التعليق مع الحفاظ على جودة عالية.
فيما يلي بعض الطرق التي تساعد بها الأتمتة عادةً في تعليق البيانات:
في حين أن الأتمتة يمكن أن تسرع عملية وضع العلامات، إلا أن نماذج الذكاء الاصطناعي لا تزال بحاجة إلى الحكم البشري لتظل دقيقة وموثوقة.
فيما يلي بعض المجالات الرئيسية التي تؤثر فيها الخبرة البشرية في تعليق البيانات:
Roboflow أدوات ومنصات التعليق التوضيحي مثل Roboflow الأتمتة لتسريع عملية وضع العلامات، غالبًا باستخدام نماذج أساسية مثل Segment Anything Model 3 أو SAM3. SAM3 هو نموذج أساسي للتقسيم القابل للتنفيذ من Meta AI.
يمكنه detect segment track في الصور ومقاطع الفيديو من خلال مطالبات بسيطة مثل النقرات أو المربعات المحيطة أو العبارات النصية القصيرة، مما ينتج أقنعة تقسيم لمطابقة الكائنات دون الحاجة إلى تدريب خاص بالمهمة لكل فئة جديدة.
حتى مع وجود هذه الأساليب المتطورة، لا تزال هناك حاجة إلى خبراء بشريين لمراجعة التعليقات التوضيحية ووضع اللمسات الأخيرة عليها. عندما تنتج الأدوات الآلية مسودة أولية، ويقوم البشر بالتحقق منها وتصحيحها وصقلها، يُعرف سير العمل هذا باسم التعليقات التوضيحية البشرية. وهذا يحافظ على سرعة التعليقات التوضيحية مع ضمان دقة واتساق العلامات النهائية بما يكفي لتدريب نماذج موثوقة.
.webp)
يعمل التعليق التلقائي بشكل أفضل مع البيانات التي تأتي من أماكن خاضعة للرقابة. عادةً ما تتمتع الصور التي يتم التقاطها في المصانع أو المستودعات أو أروقة المتاجر بإضاءة ثابتة ورؤية واضحة للأشياء، لذا يمكن للأدوات التلقائية تصنيفها بدقة ومساعدة الفرق على التوسع بشكل أسرع مع تقليل العمل اليدوي.
البيانات من الأماكن الأقل تحكماً أكثر تعقيداً. تتغير اللقطات الخارجية مع الوقت من اليوم والطقس، وغالباً ما تتضمن المشاهد من الشوارع أو المنازل فوضى، وضبابية الحركة، وأشياء تحجب بعضها البعض، والكثير من التداخل. تضيف الأشياء الصغيرة، والحدود الدقيقة، أو المواقف النادرة المزيد من مجال الخطأ. قد يواجه النموذج الذي يعمل بشكل جيد على البيانات الداخلية النظيفة صعوبة في التعامل مع الصور الفوضوية في العالم الحقيقي.
لهذا السبب لا يزال دور الإنسان مهمًا. يمكن للناس التدخل عندما يكون النموذج غير مؤكد، وتفسير السياق المعقد، وتصحيح الأخطاء قبل أن تصل إلى مجموعة البيانات النهائية. تساعد التعليقات التوضيحية التي يضيفها الإنسان على بقاء الأتمتة متوافقة مع الظروف الواقعية والحفاظ على موثوقية النماذج بعد نشرها.
الآن بعد أن رأينا المجالات التي تعمل فيها الأتمتة بشكل جيد والمجالات التي تقصر فيها، دعونا نستكشف بعض التطبيقات التي تلعب فيها التعليقات التوضيحية البشرية دوراً مهماً.
لنتخيل حزام ناقل في مصنع حيث تمر مئات القطع تحت الكاميرا كل دقيقة. معظم العيوب واضحة، ولكن بين الحين والآخر، يظهر شق صغير بزاوية غريبة أو تحت وهج الضوء. قد يفوت النظام الآلي هذا الشق أو يصنفه على أنه نسيج سطحي غير ضار، ولكن المراجع البشري يمكنه اكتشاف العيب وتصحيح التعليق والتأكد من أن النموذج يتعلم الفرق.
هذا هو دور التعليقات التوضيحية البشرية في التفتيش الصناعي. يمكن للأتمتة أن تضع علامات مسبقة على أنواع العيوب الشائعة وتسرع من معالجة كميات كبيرة من الصور، ولكن لا يزال البشر بحاجة إلى التحقق من النتائج، وتشديد الحدود، والتعامل مع الأعطال النادرة التي لا تظهر كثيرًا في التدريب.
وبالمثل، تستخدم المركبات ذاتية القيادة الرؤية الحاسوبية لاكتشاف المشاة وقراءة الإشارات والتنقل في حركة المرور، ولكن الطرق الحقيقية لا يمكن التنبؤ بها. على سبيل المثال، قد يكون المشاة الذي يخرج من خلف سيارة متوقفة ليلاً مخفيًا جزئيًا ويصعب رؤيته تحت وهج الضوء.
.webp)
يمكن للمعلقين البشريين تصنيف هذه الحالات النادرة والحرجة من حيث السلامة أثناء التدريب حتى تتعلم النماذج الاستجابة الصحيحة، ليس فقط في الظروف العادية ولكن في اللحظات الأكثر أهمية. هذه الخطوة التي يتدخل فيها الإنسان هي مفتاح لتعليم الأنظمة كيفية التعامل مع الأحداث منخفضة التردد التي يصعب التقاطها باستخدام الأتمتة وحدها.
أصبحت عملية التعليق البشري أكثر تعاونًا مع تقدم التكنولوجيا. ومن المثير للاهتمام أن نماذج لغة الرؤية (VLMs)، التي تتعلم من الصور والنصوص على حد سواء، تُستخدم الآن لإنشاء تمريرة أولى من العلامات واقتراح إصلاحات من مطالبات بسيطة.
لذلك، بدلاً من مسح كل صورة يدويًا لتحديد ما يجب تسميته، يمكن للمعلق أن يطلب من VLM عبارة مثل "تسمية جميع المشاة والسيارات وإشارات المرور" أوsegment العيوب في هذا الجزء"، والحصول على مجموعة مسودة من التعليقات التوضيحية لمراجعتها.
.webp)
وهذا يقلل من وقت التعليق التوضيحي لأن النموذج يمكنه التعامل مع العديد من الحالات البسيطة مسبقًا، بحيث يمكن للبشر التركيز على مراجعة النتائج وتصحيح الأمثلة الصعبة والحفاظ على اتساق مجموعة البيانات. كما بدأت النماذج المتعددة الوسائط الكبيرة في توجيه المعلقين التوضيحيين نحو العينات الأكثر غموضًا، مما يجعل الجهد البشري أكثر استهدافًا ويحسن جودة مجموعة البيانات بشكل عام.
تساعد الرؤية الحاسوبية الآلات على تفسير ما تراه والاستجابة له، ولكنها تعمل بشكل أفضل مع خبرة الإنسان في الحلقة. البيانات المُعلّقة من قبل الإنسان تبقي النماذج متوافقة مع الظروف الواقعية وتحسن من موثوقية أدائها. مع العمل جنبًا إلى جنب بين الأتمتة والحكم البشري، يمكن للفرق بناء أنظمة رؤية مؤثرة.
انضم إلى مجتمعنا النشط واستكشف الابتكارات مثل الذكاء الاصطناعي في مجال الخدمات اللوجستية والرؤية الاصطناعية في مجال الروبوتات. تفضل بزيارة مستودع GitHub الخاص بنا لاكتشاف المزيد. لبدء استخدام الرؤية الحاسوبية اليوم، تحقق من خيارات الترخيص المتاحة لدينا.