استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

تصنيف البيانات

اكتشف الدور الحاسم لتصنيف البيانات في التعلم الآلي، وعمليته، وتحدياته، وتطبيقاته الواقعية في تطوير الذكاء الاصطناعي.

ترميز البيانات هو عملية تحديد البيانات الأولية (مثل الصور أو الملفات النصية أو مقاطع الفيديو) وإضافة علامة أو أكثر من العلامات أو الشروحات التعريفية لتوفير سياق، مما يمكّن نموذج التعلم الآلي من التعلم منها. هذه العملية أساسية للتعلم الخاضع للإشراف، حيث تعمل مجموعة البيانات المسماة بمثابة "الحقيقة المطلقة" التي تستخدمها الخوارزمية لتدريب نفسها على تقديم تنبؤات دقيقة بشأن البيانات الجديدة غير المسماة. يعد ترميز البيانات عالي الجودة أحد أهم الخطوات وأكثرها استهلاكًا للوقت في بناء نموذج ذكاء اصطناعي قوي، حيث يعتمد أداء النموذج بشكل مباشر على جودة ودقة العلامات التي يتعلم منها.

لماذا يعتبر تصنيف البيانات مهمًا؟

يوفر ترميز البيانات الأساس الضروري للنماذج لفهم العالم وتفسيره. في مجال الرؤية الحاسوبية، تعلم العلامات النموذج كيفية التعرف على ماهية الكائن وموقعه داخل الصورة. بدون علامات دقيقة، لا يمكن للنموذج تعلم الأنماط اللازمة لأداء مهمته، مما يؤدي إلى ضعف الدقة وعدم الموثوقية. تحدد جودة بيانات التدريب، التي يتم إنشاؤها من خلال الترميز، جودة الذكاء الاصطناعي الناتج بشكل مباشر. غالبًا ما يتم تلخيص هذا المبدأ بعبارة "مدخلات رديئة، مخرجات رديئة". لقد كانت مجموعات البيانات المعيارية جيدة الترميز مثل COCO و ImageNet فعالة في تطوير أحدث التقنيات في مجال الرؤية الحاسوبية.

أنواع تسمية البيانات في رؤية الكمبيوتر

تتطلب مهام الرؤية الحاسوبية المختلفة أنواعًا مختلفة من الشروح. تشمل الطرق الأكثر شيوعًا ما يلي:

  • تصنيف الصور: أبسط شكل، حيث يتم تعيين تسمية واحدة لصورة كاملة لوصف محتواها (على سبيل المثال، "قطة"، "كلب"). يمكنك استكشاف مجموعات البيانات لهذه المهمة مثل CIFAR-100.
  • اكتشاف الكائنات: يتضمن رسم مربع إحاطة حول كل كائن ذي أهمية في الصورة وتعيين تسمية فئة له. هذا يخبر النموذج بما هو الكائن ومكانه.
  • تجزئة الصور (Image Segmentation): هي طريقة أكثر تفصيلاً تتضمن تحديد الشكل الدقيق للكائن على مستوى البكسل. ويمكن تقسيمها أيضًا إلى تجزئة دلالية (semantic segmentation)، حيث تشترك جميع الكائنات من نفس الفئة في قناع واحد، و تجزئة مثيلية (instance segmentation)، حيث يتم تجزئة كل مثيل كائن على حدة.
  • تقدير الوضعية (Pose Estimation): تحدد هذه التقنية موضع واتجاه الكائنات عن طريق إضافة تعليقات توضيحية إلى النقاط الرئيسية. على سبيل المثال، في تقدير وضعية الإنسان، تحدد النقاط الرئيسية المفاصل مثل المرفقين والركبتين والمعصمين. تعتبر مجموعة بيانات COCO Keypoints مصدرًا شائعًا لهذه المهمة.

تطبيقات واقعية

  1. المركبات ذاتية القيادة: يُعد وضع العلامات على البيانات ضروريًا لتدريب أنظمة الإدراك للسيارات ذاتية القيادة. يقوم المعلقون البشريون بوضع علامات دقيقة على ملايين الصور وإطارات الفيديو، ورسم مربعات إحاطة حول السيارات والمشاة وراكبي الدراجات، وتقسيم علامات المسار، وتصنيف إشارات المرور. تسمح هذه البيانات الغنية التي تحمل علامات لنموذج مثل Ultralytics YOLO11 بتعلم كيفية التنقل في البيئات الحضرية المعقدة بأمان. يعتمد العمل الذي تقوم به شركات مثل Waymo بشكل كبير على مجموعات البيانات الواسعة التي تحمل علامات دقيقة. يمكنك معرفة المزيد حول هذا المجال في صفحة حلول الذكاء الاصطناعي في مجال السيارات الخاصة بنا.
  2. تحليل الصور الطبية: في مجال الذكاء الاصطناعي في الرعاية الصحية، يقوم أخصائيو الأشعة والخبراء الطبيون بتسمية الفحوصات مثل التصوير بالرنين المغناطيسي (MRIs) والتصوير المقطعي المحوسب (CTs) والأشعة السينية لتحديد الأورام والآفات وغيرها من التشوهات. على سبيل المثال، في مجموعة بيانات أورام الدماغ، سيحدد الخبراء الحدود الدقيقة للورم. تُستخدم هذه البيانات المسماة لتدريب النماذج التي يمكن أن تساعد في التشخيص المبكر، مما قد يقلل من عبء العمل على المهنيين الطبيين ويحسن نتائج المرضى. تستكشف الجمعية الإشعاعية لأمريكا الشمالية (RSNA) بنشاط دور الذكاء الاصطناعي في التشخيص الطبي.

ترميز البيانات مقابل المفاهيم ذات الصلة

غالبًا ما يتم تنفيذ عملية ترميز البيانات جنبًا إلى جنب مع مهام إعداد البيانات الأخرى، ولكن من المهم التمييز بينهما:

  • زيادة البيانات: تعمل هذه التقنية على توسيع مجموعة بيانات التدريب بشكل مصطنع عن طريق إنشاء إصدارات معدلة من البيانات المسماة بالفعل (على سبيل المثال، تدوير صورة أو قلبها أو تغيير سطوعها). تزيد الزيادة من تنوع البيانات ولكنها تعتمد على مجموعة أولية من البيانات المسماة. يقدم نظرة عامة على زيادة البيانات مزيدًا من التفاصيل.
  • تنظيف البيانات: تتضمن هذه العملية تحديد وتصحيح أو إزالة الأخطاء والتناقضات وعدم الدقة في مجموعة البيانات. في حين أن هذا يمكن أن يشمل إصلاح التصنيفات غير الصحيحة، إلا أن تنظيف البيانات هو خطوة لضمان الجودة، في حين أن تسمية البيانات هي الفعل الأولي لإنشاء التعليقات التوضيحية. يقدم تنظيف البيانات على ويكيبيديا مزيدًا من السياق.
  • المعالجة المسبقة للبيانات (Data Preprocessing): هذا مصطلح أوسع يشمل تسمية البيانات وتنظيفها وتحويلات أخرى مثل التطبيع (normalization) أو تغيير حجم الصور لإعدادها للنموذج. التسمية هي خطوة محددة وحاسمة ضمن خط أنابيب المعالجة المسبقة الأكبر.

التحديات والحلول

على الرغم من أهميته، فإن وضع العلامات على البيانات محفوف بالتحديات، بما في ذلك التكاليف المرتفعة والاستثمار الكبير في الوقت والجهد واحتمال حدوث خطأ بشري أو تحيز. يعد ضمان جودة العلامات واتساقها عبر فرق كبيرة من المعلقين عقبة لوجستية كبيرة.

لتبسيط هذه العملية، غالبًا ما تستخدم الفرق أدوات تعليق متخصصة مثل CVAT أو منصات مثل Ultralytics HUB، والتي توفر بيئة تعاونية لإدارة مجموعات البيانات وسير عمل وضع العلامات. علاوة على ذلك، يمكن أن تساعد التقنيات المتقدمة مثل التعلم النشط من خلال التحديد الذكي لنقاط البيانات الأكثر إفادة ليتم تسميتها، وتحسين استخدام وقت وجهد المعلقين البشريين. كما هو مفصل في مقال بمختبر ستانفورد للذكاء الاصطناعي، فإن التركيز على جودة البيانات هو المفتاح لنجاح الذكاء الاصطناعي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة