مسرد المصطلحات

نموذج متعدد الوسائط

اكتشف كيف تدمج نماذج الذكاء الاصطناعي متعدد الوسائط النصوص والصور وغيرها لإنشاء أنظمة قوية ومتعددة الاستخدامات لتطبيقات العالم الحقيقي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثل النماذج متعددة الوسائط تقدماً كبيراً في مجال الذكاء الاصطناعي (AI) من خلال معالجة ودمج المعلومات من أنواع متعددة من مصادر البيانات، والمعروفة باسم الطرائق. على عكس النماذج التقليدية التي قد تركز فقط على الصور أو النصوص، تجمع الأنظمة متعددة الوسائط بين المدخلات مثل النصوص والصور والصوت والفيديو وبيانات الاستشعار لتحقيق فهم أكثر شمولية وشبه إنسانية للسيناريوهات المعقدة. يتيح لها هذا التكامل التقاط العلاقات المعقدة والسياق المعقد الذي قد تفتقده النماذج أحادية النمط، مما يؤدي إلى تطبيقات ذكاء اصطناعي أكثر قوة وتنوعاً، وهو ما تم استكشافه بشكل أكبر في موارد مثل مدونةUltralytics .

التعريف

النموذج متعدد الوسائط هو نظام ذكاء اصطناعي مصمم ومدرَّب على معالجة وفهم وربط المعلومات من طريقتين أو أكثر من طرائق البيانات المتميزة في نفس الوقت. تشمل الطرائق الشائعة الطرائق المرئية (الصور والفيديو) والسمعية (الكلام والأصوات) والنصية(معالجة اللغة الطبيعية - البرمجة اللغوية العصبية) وبيانات المستشعرات الأخرى (مثل قراءات الليدار أو قراءات درجة الحرارة). الفكرة الأساسية هي دمج المعلومات - الجمع بين نقاط القوة في أنواع البيانات المختلفة لتحقيق فهم أعمق. على سبيل المثال، يتضمن الفهم الكامل للفيديو معالجة الإطارات المرئية والحوار المنطوق (الصوت) وربما التسميات التوضيحية النصية أو الترجمات. من خلال تعلم الارتباطات والتبعيات بين هذه الطرائق أثناء عملية التدريب على التعلم الآلي (ML) ، وغالبًا ما تستخدم تقنيات التعلم العميق (DL) ، تطور هذه النماذج فهمًا أكثر ثراءً ودقة مما هو ممكن من خلال تحليل كل طريقة بمعزل عن الأخرى.

الملاءمة والتطبيقات

تتزايد أهمية النماذج متعددة الوسائط بسرعة لأن المعلومات في العالم الحقيقي متعددة الأوجه بطبيعتها. يدرك البشر بطبيعة الحال العالم باستخدام حواس متعددة؛ ويسمح منح الذكاء الاصطناعي قدرات مماثلة بتطبيقات أكثر تطوراً وإدراكاً للسياق. هذه النماذج ضرورية حيث يعتمد الفهم على دمج تدفقات البيانات المتنوعة، مما يؤدي إلى تحسين الدقة في المهام المعقدة.

فيما يلي بعض الأمثلة الملموسة لتطبيقها:

المفاهيم والتمييزات الرئيسية

يتضمن فهم النماذج متعددة الوسائط الإلمام بالمفاهيم ذات الصلة:

  • التعلم متعدد النماذج: هذا هو المجال الفرعي للتعلّم الآلي الذي يركز على تطوير الخوارزميات والتقنيات المستخدمة لتدريب النماذج متعددة الوسائط. وهو يعالج تحديات مثل مواءمة البيانات واستراتيجيات الدمج، والتي غالبًا ما تتم مناقشتها في الأوراق الأكاديمية.
  • نماذج التأسيس: العديد من النماذج التأسيسية الحديثة، مثل GPT-4، متعددة الوسائط بطبيعتها، وقادرة على معالجة كل من النصوص والصور. تعمل هذه النماذج الكبيرة كقاعدة يمكن ضبطها لمهام محددة.
  • نماذج اللغات الكبيرة (LLMs): على الرغم من ارتباطها ببعضها البعض، إلا أن نماذج اللغات الكبيرة تركز تقليديًا على معالجة النصوص. أما النماذج متعددة الوسائط فهي أوسع نطاقاً ومصممة بشكل واضح للتعامل مع المعلومات من أنواع بيانات مختلفة ودمجها بما يتجاوز اللغة فقط. ومع ذلك، فقد طوّرت بعض النماذج اللغوية اللغوية المتقدمة قدرات متعددة الوسائط.
  • نماذج الرؤية المتخصصة: تختلف النماذج متعددة الوسائط عن نماذج الرؤية الحاسوبية المتخصصة مثل Ultralytics YOLO. في حين أن النموذج متعدد الوسائط مثل GPT-4 قد يصف صورة ما ("هناك قطة تجلس على حصيرة")، فإن نموذج YOLO يتفوق في اكتشاف الكائنات أو تجزئة المثيلات، وتحديد موقع القطة بدقة باستخدام مربع محدد أو قناع بكسل. يمكن أن تكون هذه النماذج مكمّلة لبعضها البعض؛ يحدد نموذج YOLO مكان وجود الأجسام، بينما قد يفسر النموذج متعدد الوسائط المشهد أو يجيب عن الأسئلة المتعلقة به. راجع المقارنات بين نماذج YOLO المختلفة.
  • بنية المحولات: تُعد بنية المحولات، التي تم تقديمها في "الانتباه هو كل ما تحتاجه"، أساسية للعديد من النماذج الناجحة متعددة الوسائط، مما يتيح المعالجة الفعالة والتكامل بين تسلسلات البيانات المختلفة من خلال آليات الانتباه.

غالبًا ما يتضمن تطوير هذه النماذج ونشرها أطر عمل مثل PyTorch و TensorFlowويمكن أن تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات وسير عمل تدريب النماذج، على الرغم من أن HUB يركز حاليًا بشكل أكبر على المهام الخاصة بالرؤية. إن القدرة على الربط بين أنواع البيانات المختلفة تجعل النماذج متعددة الوسائط خطوة نحو ذكاء اصطناعي أكثر شمولاً، مما قد يساهم في الذكاء الاصطناعي العام (AGI) في المستقبل.

قراءة الكل