مسرد المصطلحات

التعرف على الكلام

اكتشف كيف تقوم تقنية التعرُّف على الكلام بتحويل الصوت إلى نص، وتشغيل حلول الذكاء الاصطناعي مثل المساعد الصوتي والنسخ الصوتي وغير ذلك الكثير.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعرف على الكلام، الذي يشار إليه غالبًا باسم التعرف التلقائي على الكلام (ASR) أو تحويل الكلام إلى نص، هو تقنية ضمن الذكاء الاصطناعي (AI) واللغويات الحاسوبية التي تمكن أجهزة الكمبيوتر من فهم اللغة البشرية المنطوقة وتحويلها إلى نص مكتوب. وهي بمثابة واجهة حاسمة للتفاعل بين الإنسان والحاسوب، مما يسمح للأجهزة والتطبيقات بالاستجابة للأوامر الصوتية ومعالجة المدخلات الصوتية. يستخدم هذا المجال بكثافة مبادئ التعلم الآلي (ML)، وخاصة التعلم العميق (DL)، لتحقيق مستويات عالية من الدقة والتعامل مع الاختلافات في أنماط الكلام واللهجات والبيئات.

كيف يعمل التعرف على الكلام

تتضمن عملية تحويل الكلام إلى نص عادةً عدة مراحل رئيسية. في البداية، يتم التقاط الصوت باستخدام ميكروفون وتحويله إلى إشارة رقمية. ويخضع هذا الصوت الخام لخطوات معالجة مسبقة مثل تقليل الضوضاء والتطبيع. بعد ذلك، يتم استخراج السمات الصوتية، التي تمثل خصائص مثل التردد والطاقة بمرور الوقت، من الإشارة. ثم تتم معالجة هذه السمات بواسطة نموذج صوتي، والذي غالباً ما يكون شبكة عصبية متطورة (NN). تشمل البنى الشائعة الشبكات العصبية المتكررة (RNNs)، وشبكات الذاكرة طويلة المدى القصيرة (LSTM) ، ومؤخراً نماذج المحولات، المعروفة بفعاليتها في مهام نمذجة التسلسل من خلال آليات مثل الانتباه الذاتي. يقوم النموذج الصوتي بتعيين الميزات إلى الوحدات الأساسية للصوت، مثل الفونيمات. وأخيرًا، يقوم النموذج اللغوي، الذي يتم تدريبه على مجموعات نصية واسعة النطاق (مثل تلك الموجودة في مبادرات البيانات الضخمة )، بتحليل تسلسل هذه الوحدات الصوتية لتحديد الكلمات والجمل الأكثر احتمالًا، مع مراعاة القواعد والسياق. الأطر مثل Kaldi ومجموعات الأدوات من منصات مثل Hugging Face توفر موارد لبناء أنظمة ASR.

الفروق الرئيسية

من المهم التمييز بين التعرف على الكلام والتقنيات ذات الصلة ولكن المتميزة:

  • تحويل النص إلى كلام (TTS): تؤدي هذه التقنية وظيفة معاكسة لوظيفة ASR، حيث تقوم بتحويل النص المكتوب إلى إخراج صوتي منطوق. فكر في قارئات الشاشة أو أصوات المساعدين الافتراضيين.
  • معالجة اللغة الطبيعية (NLP): على الرغم من ارتباطها الوثيق، إلا أن البرمجة اللغوية العصبية تركز على فهم اللغة وتفسيرها (سواء النصية أو الكلام المكتوب) لاستخراج المعنى أو القصد أو الشعور أو أداء مهام مثل الترجمة أو التلخيص. يوفر ASR مدخلات النص التي غالبًا ما تعمل عليها أنظمة معالجة اللغات الطبيعية. تُعد نمذجة اللغة مكونًا أساسيًا في كل من المعالجة الآلية للغة العربية ومعالجة اللغات الطبيعية.
  • التعرف على المتحدث: يتضمن ذلك تحديد من يتحدث، وليس ما يُقال. يتم استخدامه للمصادقة البيومترية أو تحديد المتحدث (تحديد المتحدثين المختلفين في محادثة ما).

التطبيقات الواقعية

تم دمج تقنية التعرف على الكلام في العديد من التطبيقات في مختلف المجالات:

  • المساعدون الافتراضيون: تعتمد أنظمة مثل Amazon Alexa Google Assistant وApple's Siri بشكل كبير على مساعد مساعد المستخدم الافتراضي لفهم أوامر المستخدم واستفساراته.
  • خدمات التفريغ الصوتي: تقوم أدوات مثل Otter.ai بنسخ الاجتماعات والمقابلات والمحاضرات تلقائياً، مما يجعل المحتوى الصوتي قابلاً للبحث فيه والوصول إليه.
  • أنظمة التحكم الصوتي: تُستخدم على نطاق واسع في السيارات ذاتية القيادة والسيارات الحديثة للتحكم بدون استخدام اليدين في إعدادات الملاحة والترفيه والمناخ(الذكاء الاصطناعي في السيارات ذاتية القيادة).
  • برنامج الإملاء: يُمكِّن المتخصصين في مجالات مثل الرعاية الصحية(الذكاء الاصطناعي في الرعاية الصحية) والقانون من إملاء الملاحظات والتقارير مباشرةً في مستندات رقمية.
  • أدوات إمكانية الوصول: توفر المساعدة الأساسية للأفراد ذوي الإعاقة، مما يتيح التفاعل مع التكنولوجيا من خلال الصوت. تهدف مشاريع مثل "الصوت المشترك" من موزيلا إلى تحسين ASR للأصوات المتنوعة.
  • خدمة العملاء: يعمل على تشغيل أنظمة الاستجابة الصوتية التفاعلية (IVR) والروبوتات الصوتية في مراكز الاتصال للدعم الآلي.

التحديات والتوجهات المستقبلية

على الرغم من التقدم الملحوظ، لا تزال أنظمة ASR تواجه تحديات. لا يزال تدوين الكلام بدقة في البيئات الصاخبة، والتعامل مع اللهجات واللهجات المتنوعة، والتعامل مع تداخل المتحدثين في المحادثات، وفهم المعنى الدقيق أو تحليل المشاعر، مجالات بحثية نشطة. وتركز التطورات المستقبلية على تحسين المتانة من خلال تقنيات التعلم العميق المتقدمة، واستكشاف النماذج متعددة الوسائط التي تجمع بين الصوت والمعلومات البصرية (مثل قراءة الشفاه المرتبطة بالرؤية الحاسوبية)، والاستفادة من تقنيات مثل التعلم الذاتي الخاضع للإشراف لتدريب النماذج على مجموعات بيانات ضخمة غير موسومة. بينما يركز Ultralytics في المقام الأول على نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات وتجزئة الصور، فإن التقدم في مجالات الذكاء الاصطناعي ذات الصلة مثل التعرف على الكلام يساهم في النظام البيئي العام للأنظمة الذكية. يمكنك استكشاف خيارات تدريب النماذج ونشرها لنماذج الرؤية في وثائقUltralytics وإدارة المشاريع باستخدام Ultralytics HUB.

قراءة الكل