مسرد المصطلحات

التعلّم متعدد الوسائط

اكتشف قوة التعلم متعدد الوسائط في الذكاء الاصطناعي! استكشف كيف تدمج النماذج أنواعاً متنوعة من البيانات من أجل حل مشاكل أكثر ثراءً في العالم الحقيقي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلم متعدد الوسائط هو مجال فرعي للذكاء الاصطناعي (AI) والتعلم الآلي (ML) يركز على تصميم وتدريب النماذج التي يمكنها معالجة ودمج المعلومات من أنواع بيانات متعددة ومختلفة، والمعروفة باسم الطرائق. تشمل الطرائق الشائعة النصوص، والصور(الرؤية الحاسوبية)، والصوت(التعرف على الكلام)، والفيديو، وبيانات المستشعرات (مثل بيانات الليدار أو قراءات درجة الحرارة). يتمثل الهدف الأساسي للتعلم متعدد الوسائط في بناء أنظمة ذكاء اصطناعي قادرة على فهم أكثر شمولية وشمولية شبيهة بالفهم البشري للسيناريوهات المعقدة من خلال الاستفادة من المعلومات التكميلية الموجودة عبر مصادر البيانات المختلفة.

التعريف والمفاهيم الأساسية

يتضمن التعلّم متعدد الوسائط خوارزميات تدريب لفهم العلاقات والارتباطات بين أنواع مختلفة من البيانات. وبدلاً من تحليل كل طريقة بمعزل عن الأخرى، تركز عملية التعلّم على تقنيات الجمع بين المعلومات أو دمجها بفعالية. تتضمن المفاهيم الرئيسية ما يلي:

  • دمج المعلومات: يشير هذا إلى الطرق المستخدمة لدمج المعلومات من طرائق مختلفة. يمكن أن يحدث الدمج في مراحل مختلفة: في مرحلة مبكرة (الجمع بين البيانات الأولية)، أو في مرحلة وسيطة (الجمع بين السمات المستخرجة من كل طريقة)، أو في مرحلة متأخرة (الجمع بين مخرجات النماذج المنفصلة المدربة على كل طريقة). يعد الدمج الفعال للمعلومات أمرًا بالغ الأهمية للاستفادة من نقاط القوة في كل نوع من أنواع البيانات.
  • التعلم متعدد الوسائط: ويتضمن ذلك تعلم التمثيلات حيث يمكن استخدام المعلومات من إحدى الطرائق لاستنتاج أو استرجاع المعلومات من طريقة أخرى (على سبيل المثال، توليد تعليقات نصية من الصور).
  • محاذاة البيانات: التأكد من مطابقة أجزاء المعلومات المتناظرة عبر طرائق مختلفة بشكل صحيح (على سبيل المثال، محاذاة الكلمات المنطوقة في مسار صوتي مع الإطارات المرئية المقابلة في مقطع فيديو). غالبًا ما تكون محاذاة البيانات بشكل صحيح شرطًا أساسيًا للدمج الفعال.

يعتمد التعلم متعدد الوسائط اعتمادًا كبيرًا على تقنيات من التعلم العميق (DL)، باستخدام بنيات مثل المحولات والشبكات العصبية التلافيفية (CNNs ) التي تم تكييفها للتعامل مع مدخلات متنوعة، وغالبًا ما تستخدم أطر عمل مثل PyTorchPyTorch موقعPyTorch الرسمي) أو TensorFlowTensorFlow ).

الملاءمة والتطبيقات

تنبع أهمية التعلّم متعدد الوسائط من قدرته على إنشاء أنظمة ذكاء اصطناعي أكثر قوة وتنوعاً قادرة على معالجة المشاكل المعقدة في العالم الحقيقي حيث تكون المعلومات بطبيعتها متعددة الأوجه. تستفيد العديد من نماذج الذكاء الاصطناعي المتقدمة اليوم، بما في ذلك النماذج التأسيسية الكبيرة، من القدرات متعددة الوسائط.

فيما يلي بعض الأمثلة الملموسة لكيفية تطبيق التعلم متعدد الوسائط:

تشمل التطبيقات المهمة الأخرى القيادة الذاتية(الذكاء الاصطناعي في السيارات ذاتية القيادة)، حيث يتم دمج البيانات من الكاميرات والليدار والرادار من قبل شركات مثل Waymo، وتحليل الصور الطبية التي تجمع بين بيانات التصوير وسجلات المرضى، وتطبيقات الذكاء الاصطناعي في الروبوتات، حيث تدمج الروبوتات المعلومات البصرية والسمعية واللمسية للتفاعل مع بيئتها(الروبوتات).

الفروق الرئيسية

من المفيد التمييز بين التعلم متعدد الوسائط والمصطلحات ذات الصلة:

  • النماذج متعددة الوسائط: التعلم متعدد النماذج هو العملية أو مجال الدراسة المعني بتدريب الذكاء الاصطناعي باستخدام أنواع متعددة من البيانات. النماذج متعددة النماذج هي أنظمة أو بنى الذكاء الاصطناعي الناتجة التي تم تصميمها وتدريبها باستخدام هذه التقنيات.
  • الرؤية الحاسوبية (CV): تركز السيرة الذاتية حصريًا على معالجة البيانات المرئية وفهمها (الصور ومقاطع الفيديو). أما التعلّم متعدد الوسائط فيتجاوز نطاق السيرة الذاتية من خلال دمج البيانات المرئية مع طرائق أخرى مثل النصوص أو الصوت.
  • معالجة اللغة الطبيعية (NLP): تتعامل البرمجة اللغوية العصبية مع فهم وتوليد اللغة البشرية (النص والكلام). أما التعلم متعدد الوسائط فيدمج بيانات اللغة مع طرائق أخرى مثل الصور أو قراءات أجهزة الاستشعار.
  • النماذج التأسيسية: وهي نماذج واسعة النطاق تم تدريبها مسبقاً على كميات هائلة من البيانات، وغالباً ما تكون مصممة لتكون قابلة للتكيف مع مختلف المهام النهائية. تشتمل العديد من النماذج التأسيسية الحديثة، مثل نموذج GPT-4، على قدرات متعددة الوسائط، ولكن المفاهيم مختلفة؛ فالتعلم متعدد الوسائط هو منهجية غالباً ما تُستخدم في بناء هذه النماذج القوية.

التحديات والتوجهات المستقبلية

يطرح التعلّم متعدد الوسائط تحديات فريدة من نوعها، بما في ذلك مواءمة البيانات من مصادر مختلفة بشكل فعال، وتطوير استراتيجيات الدمج المثلى، والتعامل مع البيانات المفقودة أو المشوشة في طريقة أو أكثر. ولا تزال معالجة هذه التحديات في التعلّم متعدد الوسائط مجالاً نشطاً للبحث.

يشهد هذا المجال تطوراً سريعاً، مما يدفع الحدود نحو أنظمة الذكاء الاصطناعي التي تدرك العالم وتفكر فيه بشكل أكبر كما يفعل البشر، مما قد يساهم في تطوير الذكاء الاصطناعي العام (AGI). بينما تعمل منصات مثل Ultralytics HUB حاليًا على تسهيل سير العمل الذي يركز بشكل أساسي على مهام الرؤية الحاسوبية باستخدام نماذج مثل Ultralytics YOLO (على سبيل المثال Ultralytics YOLOv8) لاكتشاف الكائنات، يشير المشهد الأوسع للذكاء الاصطناعي إلى زيادة تكامل القدرات متعددة الوسائط. راقب مدونةUltralytics للحصول على تحديثات حول إمكانيات النماذج والتطبيقات الجديدة. للحصول على نظرة عامة أوسع على هذا المجال، تقدم صفحة ويكيبيديا عن التعلم متعدد الوسائط المزيد من القراءة.

قراءة الكل