مسرد المصطلحات

التعرف على الكلام

اكتشف كيف تقوم تقنية التعرُّف على الكلام بتحويل الصوت إلى نص، وتشغيل حلول الذكاء الاصطناعي مثل المساعد الصوتي والنسخ الصوتي وغير ذلك الكثير.

التعرّف على الكلام، والمعروف أيضًا باسم التعرّف التلقائي على الكلام (ASR) أو التعرّف على الكلام الحاسوبي، هو تقنية تمكّن الكمبيوتر أو الجهاز من تحديد اللغة المنطوقة وتحويلها إلى نص يمكن قراءته آليًا. وهي بمثابة مكون أساسي للذكاء الاصطناعي الحديث (AI)، حيث تعمل على سد الفجوة بين الكلام البشري والفهم الحاسوبي. في جوهرها، تقوم ASR بتحليل الموجات الصوتية ومعالجتها باستخدام خوارزميات متطورة وإنتاج نص مكتوب، وتشكل جزءًا مهمًا من خطوط أنابيب معالجة اللغات الطبيعية (NLP).

كيف يعمل التعرف على الكلام

تتضمن عملية تحويل الكلام إلى نص عادةً عدة مراحل مدعومة بالتعلم الآلي (ML). أولاً، يلتقط النظام الصوت ويقسمه إلى أصوات صغيرة ومميزة. وباستخدام عملية تسمى استخراج السمات، يتم تحويل الشكل الموجي الصوتي إلى تمثيل رقمي يمكن للنموذج تحليله.

بعد ذلك، يقوم نموذج صوتي، غالبًا ما يكون عبارة عن شبكة عصبية عميقة، بتحليل هذه السمات لتحويلها إلى فونيمات - وهي الوحدات الأساسية للصوت في اللغة. وأخيرًا، يأخذ النموذج اللغوي تسلسل الفونيمات ويستخدم المعرفة الإحصائية لتجميعها في كلمات وجمل متماسكة. وقد تحسنت جودة هذه الأنظمة بشكل كبير مع ظهور التعلم العميق ومجموعات البيانات الكبيرة، حيث لعبت أطر مثل PyTorch و TensorFlow دورًا أساسيًا في تطويرها.

التطبيقات في العالم الحقيقي

تم دمج التعرف على الكلام في عدد لا يحصى من التطبيقات التي تشكل تفاعلاتنا اليومية مع التكنولوجيا.

  • المساعدون الافتراضيون: تعتمد خدمات مثل Siri من Apple وAlexa من Amazon Alexa على مساعدين افتراضيين لمعالجة الأوامر الصوتية والإجابة عن الأسئلة وأداء المهام.
  • النسخ الآلي: تُستخدم تقنية ASR لإنشاء سجلات مكتوبة لمحتوى الصوت والفيديو، مثل تفريغ نصوص الاجتماعات، والتعليقات التوضيحية المغلقة لمقاطع الفيديو، وإملاءات المتخصصين الطبيين. تُعد هذه التقنية ميزة أساسية في خدمات مثل Google Cloud Speech-to-Text.
  • أنظمة التحكم داخل السيارة: تستخدم السيارات الحديثة خاصية التعرف على الكلام للسماح للسائقين بالتحكم في الملاحة والترفيه والتحكم في المناخ بدون استخدام اليدين، مما يحسن السلامة في حلول السيارات.

مفاهيم الذكاء الاصطناعي ذات الصلة

من المفيد التمييز بين ASR والعديد من المصطلحات ذات الصلة الوثيقة:

  • تحويل الكلام إلى نص (STT): غالبًا ما يستخدم هذا المصطلح بالتبادل مع ASR. ومع ذلك، يمكن اعتبار تحويل الكلام إلى نص (STT) بمثابة الإخراج المباشر أو التطبيق المباشر، بينما يشير ASR إلى العملية التكنولوجية الأساسية.
  • تحويل النص إلى كلام (TTS): تحويل النص إلى كلام هو العملية العكسية لتحويل النص إلى كلام. فهي تقوم بتوليف الكلام الاصطناعي من النص المكتوب، مما يتيح تطبيقات مثل الكتب الصوتية والملاحظات الصوتية من نظام تحديد المواقع العالمي (GPS).
  • فهم اللغة الطبيعية (NLU): فهم اللغة الطبيعية هو الخطوة التالية بعد ASR لتحويل الكلام إلى نص. في حين يركز ASR على دقة النسخ، تهتم NLU بتفسير المعنى والمقصد والكيانات داخل هذا النص.

التحديات والتوجهات المستقبلية

على الرغم من التقدم الملحوظ، لا تزال أنظمة ASR تواجه تحديات. حيث لا يزال تدوين الكلام بدقة في البيئات الصاخبة، والتعامل مع اللهجات واللهجات المتنوعة، والتعامل مع تداخل المتحدثين في المحادثات، وفهم المعنى الدقيق أو تحليل المشاعر، مجالات بحثية نشطة. وتواصل المشاريع الرائدة مفتوحة المصدر، مثل مشروع OpenAI's Whisper ومجموعات الأدوات مثل Kaldi، دفع حدود الممكن.

وتركز التطورات المستقبلية على تحسين المتانة من خلال تقنيات التعلم العميق المتقدمة، واستكشاف النماذج متعددة الوسائط التي تجمع بين الصوت والمعلومات المرئية (مثل قراءة الشفاه، المرتبطة بالرؤية الحاسوبية)، والاستفادة من تقنيات مثل التعلم الخاضع للإشراف الذاتي لتدريب النماذج على مجموعات بيانات ضخمة غير موسومة. بينما يركز Ultralytics في المقام الأول على نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور، فإن التقدم في مجالات الذكاء الاصطناعي ذات الصلة مثل التعرف على الكلام يساهم في النظام البيئي العام للأنظمة الذكية. يمكنك استكشاف خيارات تدريب النماذج ونشرها لنماذج الرؤية في وثائق Ultralytics وإدارة المشاريع باستخدام Ultralytics HUB.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة