مسرد المصطلحات

البيانات التركيبية

أطلق العنان لقوة البيانات التركيبية للذكاء الاصطناعي/التعلم الآلي! التغلب على ندرة البيانات ومشكلات الخصوصية والتكاليف مع تعزيز تدريب النماذج والابتكار.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تشير البيانات الاصطناعية إلى المعلومات التي يتم إنشاؤها بشكل مصطنع والتي تحاكي الخصائص الإحصائية لبيانات العالم الحقيقي، بدلاً من جمعها مباشرةً من أحداث أو قياسات حقيقية. في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) ، تعمل البيانات الاصطناعية كبديل أو مكمّل حاسم لبيانات التدريب الحقيقية. وهي ذات قيمة خاصة عندما يكون جمع البيانات الواقعية الكافية أمرًا صعبًا أو مكلفًا أو مستهلكًا للوقت(دليل جمع البيانات والتعليقات التوضيحية)، أو يثير مخاوف بشأن خصوصية البيانات. تساعد هذه المعلومات المصطنعة في تدريب نماذج مثل Ultralytics YOLOواختبار الأنظمة، واستكشاف السيناريوهات التي قد تكون نادرة أو خطيرة في الواقع، مما يعزز في نهاية المطاف الابتكار وأداء النموذج.

كيف يتم إنشاء البيانات الاصطناعية

يستخدم توليد البيانات الاصطناعية تقنيات مختلفة، اعتمادًا على التعقيد والدقة المطلوبين. تتضمن بعض الأساليب الشائعة ما يلي:

  • النمذجة الإحصائية: استخدام الأساليب الإحصائية مثل أخذ العينات من التوزيعات الاحتمالية أو نماذج الانحدار المستمدة من بيانات حقيقية.
  • المحاكاة: إنشاء بيئات أو عمليات افتراضية لتوليد البيانات. وهذا أمر شائع في مجال الروبوتات والأنظمة المستقلة باستخدام منصات مثل NVIDIA Omniverse أو Unity Simulation.
  • نماذج التعلم العميق: توظيف تقنيات التعلّم العميق (DL) ، وخاصةً الشبكات العدائية التوليدية (GANs) ، ومؤخراً نماذج الانتشار. تتعلّم هذه النماذج الأنماط الأساسية للبيانات الحقيقية وتولّد نقاط بيانات جديدة ومتشابهة. قدمت ورقة GAN الأصلية مفهومًا أساسيًا في هذا المجال.

الأهمية في الذكاء الاصطناعي والرؤية الحاسوبية

توفر البيانات الاصطناعية العديد من المزايا المهمة لتطوير الذكاء الاصطناعي والرؤية الحاسوبية:

  • التغلب على ندرة البيانات: توفير كميات كبيرة من البيانات عندما تكون بيانات العالم الحقيقي محدودة أو مكلفة في الحصول عليها، مما يساعد في تدريب نماذج قوية(نصائح لتدريب النماذج).
  • تعزيز خصوصية البيانات: توليد البيانات التي تحتفظ بالخصائص الإحصائية دون احتوائها على معلومات واقعية حساسة، مما يساعد على الامتثال للوائح الخصوصية وتمكين تقنيات مثل الخصوصية التفاضلية.
  • الحد من التحيز: يمكن التحكم فيه بعناية لتخفيف أو زيادة تمثيل المجموعات أو السيناريوهات الممثلة تمثيلاً ناقصًا، مما يساعد على معالجة تحيز مجموعة البيانات وتعزيز العدالة في الذكاء الاصطناعي.
  • تغطية حالات الحافة: يسمح بإنشاء بيانات تمثل سيناريوهات نادرة أو خطيرة (على سبيل المثال، حوادث المركبات ذاتية القيادة، والحالات الطبية النادرة) التي يصعب التقاطها في الواقع. هذا يحسن من تعميم النموذج.
  • كفاءة التكلفة والوقت: غالبًا ما يكون توليد البيانات أرخص وأسرع من جمع البيانات الواقعية وتوسيمها(شرح توسيم البيانات).

في مجال الرؤية الحاسوبية، تُستخدم الصور الاصطناعية بشكل متكرر لتدريب النماذج على مهام مثل اكتشاف الأجسام وتجزئة الصور وتقدير الوضعية في ظل ظروف متنوعة (مثل الإضاءة المتغيرة والطقس ووجهات النظر) التي قد يصعب العثور عليها في مجموعات البيانات المتاحة.

التطبيقات الواقعية

يتم تطبيق البيانات التركيبية في العديد من الصناعات:

تشمل التطبيقات الأخرى النمذجة المالية(الذكاء الاصطناعي في مجال التمويل)، وتجارة التجزئة(الذكاء الاصطناعي لتجارة التجزئة الأكثر ذكاءًوالتدريب على الروبوتات.

البيانات التركيبية مقابل زيادة البيانات

بينما يهدف كل من البيانات التركيبية وزيادة البيانات إلى تحسين مجموعات البيانات، إلا أنهما مفهومان مختلفان:

  • زيادة البيانات: ينطوي على تطبيق تحويلات (مثل التدوير والقص وتغيير الألوان) على نقاط البيانات الحقيقية الموجودة لإنشاء نسخ معدلة قليلاً. يزيد من تنوع مجموعة التدريب بناءً على توزيع البيانات الأصلية. غالبًا ما تتضمن نماذج Ultralytics عمليات زيادة مدمجة(تكامل البونتمنتات).
  • البيانات الاصطناعية: تشير إلى البيانات الجديدة كليًا التي يتم إنشاؤها بشكل مصطنع تمامًا، وغالبًا ما تستخدم المحاكاة أو النماذج التوليدية مثل شبكات GAN. لا تبدأ بالضرورة من نقطة بيانات حقيقية محددة ويمكن أن تمثل سيناريوهات غائبة تمامًا عن مجموعة البيانات الأصلية.

في الأساس، تعمل زيادة البيانات على توسيع نطاق التباين حول البيانات الموجودة، بينما يمكن للبيانات الاصطناعية أن تخلق نقاط بيانات وسيناريوهات جديدة تمامًا، مما يوفر طريقة قوية لتكملة أو حتى استبدال البيانات الحقيقية في تدريب نماذج الذكاء الاصطناعي التي تتم إدارتها من خلال منصات مثل Ultralytics HUB.

قراءة الكل