اكتشف الذكاء الاصطناعي متعدد الوسائط، وهو المجال الذي تعالج فيه الأنظمة وتفهم البيانات المتنوعة مثل النصوص والصور والصوت. تعرف على كيفية عمله واستكشف التطبيقات الرئيسية.
يشير مصطلح الذكاء الاصطناعي متعدد الوسائط (Multimodal AI) إلى مجال الذكاء الاصطناعي (AI) حيث يتم تصميم الأنظمة لمعالجة وفهم المعلومات من أنواع متعددة من البيانات، والمعروفة باسم الوسائط، والاستدلال عليها. على عكس أنظمة الذكاء الاصطناعي التقليدية التي تركز عادةً على نوع بيانات واحد (مثل النصوص فقط أو الصور فقط)، يدمج الذكاء الاصطناعي متعدد الوسائط مصادر بيانات متنوعة ويفسرها مثل النصوص والصور والصوت والفيديو وحتى بيانات المستشعرات. يمكّن هذا النهج الذكاء الاصطناعي من اكتساب فهم أكثر شمولاً وشبيهًا بالإنسان للعالم، تمامًا مثل الطريقة التي يستخدم بها البشر البصر والسمع واللغة معًا لإدراك محيطهم. التحدي الأساسي في هذا المجال ليس مجرد معالجة كل وسيطة ولكن الجمع بينها بشكل فعال لإنشاء تفسير موحد وغني بالسياق.
يتضمن تطوير نظام ذكاء اصطناعي متعدد الوسائط عدة خطوات رئيسية. أولاً، يجب على النموذج إنشاء تمثيل رقمي ذي معنى لكل نوع من أنواع البيانات، وهي عملية غالبًا ما تتضمن إنشاء تضمينات. على سبيل المثال، تتم معالجة مدخلات نصية بواسطة نموذج لغوي، وتتم معالجة صورة بواسطة نموذج رؤية حاسوبية (CV). الخطوة الحاسمة التالية هي الدمج، حيث يتم دمج هذه التمثيلات المختلفة. يمكن أن تتراوح تقنيات ذلك من التسلسل البسيط إلى طرق أكثر تعقيدًا تتضمن آليات الانتباه، والتي تسمح للنموذج بتقدير أهمية الوسائط المختلفة لمهمة معينة.
كانت بنية Transformer، التي تم تقديمها في الورقة البحثية المؤثرة "Attention Is All You Need"، أساسية لنجاح الأنظمة متعددة الوسائط الحديثة. إن قدرتها على التعامل مع البيانات المتسلسلة والتقاط التبعيات طويلة المدى تجعلها فعالة للغاية في دمج المعلومات من مصادر مختلفة. توفر الأطر الرائدة مثل PyTorch و TensorFlow الأدوات اللازمة لبناء و تدريب هذه النماذج المعقدة.
يعمل الذكاء الاصطناعي متعدد الوسائط على تشغيل جيل جديد من التطبيقات الذكية التي هي أكثر تنوعًا وبديهية.
الإجابة المرئية على الأسئلة (VQA): في نظام VQA، يمكن للمستخدم عرض صورة وطرح سؤال عنها بلغة طبيعية، مثل "ما لون السيارة في الشارع؟" يجب على الذكاء الاصطناعي فهم النص وتحليل المعلومات المرئية وإنشاء إجابة ذات صلة. تُستخدم هذه التقنية لإنشاء أدوات وصول للأشخاص ذوي الإعاقة البصرية وتحسين منصات التعلم التفاعلي.
إنشاء صور من النص: تعتبر منصات مثل DALL-E 3 من OpenAI و Stable Diffusion من Stability AI أمثلة بارزة على الذكاء الاصطناعي متعدد الوسائط. إنها تأخذ وصفًا نصيًا (مطالبة) وتولد صورة مقابلة. يتطلب هذا أن يكون لدى النموذج فهم عميق لكيفية ترجمة المفاهيم اللغوية إلى سمات مرئية، مما يتيح أشكالًا جديدة من الفن الرقمي وإنشاء المحتوى.
من المهم التمييز بين الذكاء الاصطناعي متعدد الوسائط والمصطلحات المماثلة:
يمكن إدارة تطوير ونشر كل من النماذج المتخصصة ومتعددة الوسائط باستخدام منصات مثل Ultralytics HUB، مما يبسط سير عمل تعلم الآلة (ML). يمثل التقدم في الذكاء الاصطناعي متعدد الوسائط خطوة مهمة نحو إنشاء ذكاء اصطناعي أكثر قدرة وقابلية للتكيف، مما قد يمهد الطريق نحو الذكاء الاصطناعي العام (AGI) كما تبحث فيه مؤسسات مثل Google DeepMind.