اكتشف كيف تقوم تقنية التعرُّف على الكلام بتحويل الصوت إلى نص، وتشغيل حلول الذكاء الاصطناعي مثل المساعد الصوتي والنسخ الصوتي وغير ذلك الكثير.
التعرف على الكلام، الذي يشار إليه غالبًا باسم التعرف التلقائي على الكلام (ASR) أو تحويل الكلام إلى نص، هو تقنية ضمن الذكاء الاصطناعي (AI) واللغويات الحاسوبية التي تمكن أجهزة الكمبيوتر من فهم اللغة البشرية المنطوقة وتحويلها إلى نص مكتوب. وهي بمثابة واجهة حاسمة للتفاعل بين الإنسان والحاسوب، مما يسمح للأجهزة والتطبيقات بالاستجابة للأوامر الصوتية ومعالجة المدخلات الصوتية. يستخدم هذا المجال بكثافة مبادئ التعلم الآلي (ML)، وخاصة التعلم العميق (DL)، لتحقيق مستويات عالية من الدقة والتعامل مع الاختلافات في أنماط الكلام واللهجات والبيئات.
تتضمن عملية تحويل الكلام إلى نص عادةً عدة مراحل رئيسية. في البداية، يتم التقاط الصوت باستخدام ميكروفون وتحويله إلى إشارة رقمية. ويخضع هذا الصوت الخام لخطوات معالجة مسبقة مثل تقليل الضوضاء والتطبيع. بعد ذلك، يتم استخراج السمات الصوتية، التي تمثل خصائص مثل التردد والطاقة بمرور الوقت، من الإشارة. ثم تتم معالجة هذه السمات بواسطة نموذج صوتي، والذي غالباً ما يكون شبكة عصبية متطورة (NN). تشمل البنى الشائعة الشبكات العصبية المتكررة (RNNs)، وشبكات الذاكرة طويلة المدى القصيرة (LSTM) ، ومؤخراً نماذج المحولات، المعروفة بفعاليتها في مهام نمذجة التسلسل من خلال آليات مثل الانتباه الذاتي. يقوم النموذج الصوتي بتعيين الميزات إلى الوحدات الأساسية للصوت، مثل الفونيمات. وأخيرًا، يقوم النموذج اللغوي، الذي يتم تدريبه على مجموعات نصية واسعة النطاق (مثل تلك الموجودة في مبادرات البيانات الضخمة )، بتحليل تسلسل هذه الوحدات الصوتية لتحديد الكلمات والجمل الأكثر احتمالًا، مع مراعاة القواعد والسياق. الأطر مثل Kaldi ومجموعات الأدوات من منصات مثل Hugging Face توفر موارد لبناء أنظمة ASR.
من المهم التمييز بين التعرف على الكلام والتقنيات ذات الصلة ولكن المتميزة:
تم دمج تقنية التعرف على الكلام في العديد من التطبيقات في مختلف المجالات:
على الرغم من التقدم الملحوظ، لا تزال أنظمة ASR تواجه تحديات. لا يزال تدوين الكلام بدقة في البيئات الصاخبة، والتعامل مع اللهجات واللهجات المتنوعة، والتعامل مع تداخل المتحدثين في المحادثات، وفهم المعنى الدقيق أو تحليل المشاعر، مجالات بحثية نشطة. وتركز التطورات المستقبلية على تحسين المتانة من خلال تقنيات التعلم العميق المتقدمة، واستكشاف النماذج متعددة الوسائط التي تجمع بين الصوت والمعلومات البصرية (مثل قراءة الشفاه المرتبطة بالرؤية الحاسوبية)، والاستفادة من تقنيات مثل التعلم الذاتي الخاضع للإشراف لتدريب النماذج على مجموعات بيانات ضخمة غير موسومة. بينما يركز Ultralytics في المقام الأول على نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات وتجزئة الصور، فإن التقدم في مجالات الذكاء الاصطناعي ذات الصلة مثل التعرف على الكلام يساهم في النظام البيئي العام للأنظمة الذكية. يمكنك استكشاف خيارات تدريب النماذج ونشرها لنماذج الرؤية في وثائقUltralytics وإدارة المشاريع باستخدام Ultralytics HUB.