Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تصنيف البيانات

اكتشف الدور الحاسم لتصنيف البيانات في التعلم الآلي، وعمليته، وتحدياته، وتطبيقاته الواقعية في تطوير الذكاء الاصطناعي.

توسيم البيانات هي العملية الأساسية لوضع علامات أو شروح للبيانات الخام مع سياق ذي معنى لإنشاء مجموعة بيانات مناسبة لتدريب نماذج التعلم الآلي (ML). في سياق التعلّم تحت الإشراف، تتطلب الخوارزميات أمثلة تتضمن كلاً من البيانات المدخلة (مثل صورة) والمخرجات المتوقعة (التسمية). تعمل هذه المعلومات بمثابة الحقيقة الأساسية، حيث تعمل كمعيار نهائي المعيار النهائي الذي يتم على أساسه قياس تنبؤات النموذج وتحسينها. بدون تصنيف عالي الجودة حتى البنى الأكثر تطوراً، مثل Ultralytics YOLO11لا يمكن أن تتعلم التعرف بدقة على الأنماط أو تحديد الأشياء بدقة.

أهمية وضع الملصقات الدقيقة

يرتبط أداء أي نظام للذكاء الاصطناعي ارتباطًا وثيقًا بجودة بيانات التدريب الخاصة به. إذا كانت التسميات غير متسقة أو غير دقيقة أو غير صحيحة، سيتعلم النموذج ارتباطات معيبة - وهي مشكلة معروفة على نطاق واسع في علوم الحاسوب باسم "القمامة في، القمامة خارج". تسمح التسميات الدقيقة للنماذج بالتعميم بشكل جيد على البيانات الجديدة غير المرئية، وهو أمر وهو أمر بالغ الأهمية لنشر تطبيقات تطبيقات الرؤية الحاسوبية القوية. مجموعات البيانات مجموعات البيانات المعيارية الرئيسية مثل مجموعة بياناتCOCO و ImageNet أصبحت معايير الصناعة على وجه التحديد بسبب تصنيفها الشامل والدقيق.

الأنواع الشائعة للتوسيم في الرؤية الحاسوبية

تعتمد الطريقة المحددة لتوسيم البيانات بشكل كبير على مهمة الرؤية الحاسوبية المقصودة:

  • تصنيف الصور: تعيين فئة واحدة أو علامة فئة واحدة لصورة كاملة (على سبيل المثال، تصنيف صورة على أنها "مشمسة" أو "ممطرة").
  • اكتشاف الأجسام: رسم مربعات ثنائية الأبعاد ثنائي الأبعاد حول الأجسام ذات الأهمية و وتعيين فئة لكل مربع. هذا يعلم النموذج ماهية الكائن ومكان وجوده.
  • تجزئة الصور: إنشاء أقنعة مثالية بالبكسل. يصنف التقسيم الدلالي المناطق حسب (على سبيل المثال، جميع بكسلات "الطريق")، بينما يميّز تقسيم يميز تجزئة المثيل بين الكائنات الفردية من نفس الفئة (على سبيل المثال، "سيارة 1"، "سيارة 2").
  • تقدير الوضعية: التعليق على نقاط رئيسية محددة على موضوع ما، مثل المفاصل على جسم الإنسان (تتبع الهيكل العظمي)، لفهم الحركة والوضعية.

تطبيقات واقعية

يُمكّن تصنيف البيانات الذكاء الاصطناعي من العمل في بيئات معقدة وواقعية. ومن الأمثلة البارزة على ذلك:

  1. المركبات ذاتية القيادة: لكي تتمكن السيارة ذاتية القيادة للتنقل بأمان، فإنها تعتمد على بيانات التدريب حيث قام البشر بوضع علامات دقيقة على خطوط المسارات وإشارات المرور والمشاة والمركبات الأخرى. وهذا يسمح لنظام الإدراك في السيارة بتفسير الطريق هندسة الطريق والمخاطر المحتملة على الفور. يمكنك استكشاف ذلك أكثر في الذكاء الاصطناعي في حلول السيارات.
  2. تحليل الصور الطبية: في مجال الرعاية الصحية، يقوم أخصائيو الأشعة بتصنيف الفحوصات الطبية لتحديد التشوهات. على سبيل المثال، في مجموعة بيانات مجموعة بيانات ورم الدماغ، قد يقوم الخبراء بتحديد الحدود الدقيقة للآفة. تعمل هذه البيانات المصنفة على تدريب النماذج لمساعدة الأطباء في التشخيص المبكر، وتحسين نتائج المرضى. اقرأ المزيد عن الذكاء الاصطناعي في الرعاية الصحية لمشاهدة هذه النماذج أثناء العمل.

ترميز البيانات مقابل المفاهيم ذات الصلة

من المفيد التمييز بين التوسيم والمصطلحات المماثلة المستخدمة في خط إعداد البيانات:

  • مقابل. شرح البيانات: هذان المصطلحان غالبًا ما يستخدمان بالتبادل. ومع ذلك، يُستخدم مصطلح "وضع العلامات" أحيانًا لمهام أبسط مثل التصنيف (وضع العلامات)، في حين أن "التعليق التوضيحي" يعني بيانات وصفية أكثر ثراءً، مثل رسم المضلعات أو رسم النقاط الرئيسية.
  • مقابل. زيادة البيانات: يؤدي وضع العلامات إلى إنشاء مجموعة البيانات الأولية. تحدث عملية التعزيز بعد ذلك، حيث يقوم البرنامج رياضيًا بتعديل الصور الموسومة (تدوير، قلب، إضافة ضوضاء) لزيادة تنوع مجموعة البيانات بشكل مصطنع دون الحاجة إلى جهد جهد بشري يدوي.
  • ضد. تنظيف البيانات: يتضمن ذلك إصلاح الأخطاء في مجموعة البيانات، مثل إزالة الملفات التالفة أو تصحيح العناصر المصنفة بشكل خاطئ. يضمن التنظيف سلامة التسميات التي يقدمها الشارحون.

الأدوات ومثال على التعليمات البرمجية

في حين أن وضع العلامات اليدوية يستغرق وقتًا طويلاً، غالبًا ما تستخدم عمليات سير العمل الحديثة برامج متخصصة مثل CVAT (أداة الرؤية الحاسوبية التوضيحية) أو الاستفادة من التعلم النشط لتسريع العملية. تم تصميم تم تصميم منصةUltralytics القادمة لتبسيط دورة حياة دورة الحياة بأكملها، بدءًا من تحديد مصادر البيانات وحتى التعليلق التلقائي.

يوضّح مقتطف Python التالي كيفية تدريب نموذج YOLO11 باستخدام مجموعة بيانات موسّمة مسبقًا (coco8.yaml). تعتمد عملية التدريب كليًا على وجود تسميات دقيقة محددة في ملف تكوين مجموعة البيانات ملف تكوين مجموعة البيانات.

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن