يولو فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعرف على الكلام

اكتشف كيف تحول تقنية التعرف على الكلام الصوت إلى نص، مما يدعم حلول الذكاء الاصطناعي مثل المساعدين الصوتيين والنسخ والمزيد.

التعرف على الكلام، المعروف أيضًا باسم التعرف التلقائي على الكلام (ASR) أو التعرف على الكلام بواسطة الكمبيوتر، هو تقنية تمكن جهاز كمبيوتر أو جهاز من تحديد وتحويل اللغة المنطوقة إلى نص يمكن قراءته آليًا. إنه بمثابة عنصر أساسي في الذكاء الاصطناعي (AI) الحديث، حيث يسد الفجوة بين الكلام البشري والفهم الحسابي. في جوهره، يحلل نظام التعرف التلقائي على الكلام الموجات الصوتية، ويعالجها باستخدام خوارزميات متطورة، وينتج نسخة نصية، مما يشكل جزءًا مهمًا من مسارات معالجة اللغة الطبيعية (NLP).

كيفية عمل التعرّف على الكلام

تتضمن عملية تحويل الكلام إلى نص عادةً عدة مراحل مدعومة بـ التعلم الآلي (ML). أولاً، يلتقط النظام الصوت ويقسمه إلى أصوات صغيرة ومتميزة. باستخدام عملية تسمى استخراج الميزات، يتم تحويل شكل الموجة الصوتية إلى تمثيل رقمي يمكن للنموذج تحليله.

بعد ذلك، يحلل نموذج صوتي، غالبًا ما يكون شبكة عصبية عميقة، هذه الميزات لربطها بالصوتيات - الوحدات الأساسية للصوت في اللغة. أخيرًا، يأخذ نموذج لغوي تسلسل الصوتيات ويستخدم المعرفة الإحصائية لتجميعها في كلمات وجمل متماسكة. لقد تحسنت جودة هذه الأنظمة بشكل كبير مع ظهور التعلم العميق ومجموعات البيانات الكبيرة، حيث كانت أطر العمل مثل PyTorch و TensorFlow مفيدة في تطويرها.

التطبيقات في العالم الحقيقي

تم دمج التعرف على الكلام في عدد لا يحصى من التطبيقات التي تشكل تفاعلاتنا اليومية مع التكنولوجيا.

  • المساعدون الافتراضيون: تعتمد خدمات مثل Siri من Apple و Amazon Alexa على تقنية التعرف التلقائي على الكلام (ASR) لمعالجة الأوامر الصوتية والإجابة على الأسئلة وتنفيذ المهام.
  • النسخ الآلي: يتم استخدام ASR لإنشاء سجلات مكتوبة لمحتوى الصوت والفيديو، مثل نسخ الاجتماعات، والتعليقات التوضيحية المغلقة لمقاطع الفيديو، والإملاء للمهنيين الطبيين. هذه التقنية هي ميزة أساسية في خدمات مثل Google Cloud Speech-to-Text.
  • أنظمة التحكم داخل السيارة: تستخدم المركبات الحديثة التعرف على الكلام للسماح للسائقين بالتحكم في الملاحة والترفيه والتحكم في المناخ دون استخدام اليدين، مما يحسن السلامة في حلول السيارات.

مفاهيم الذكاء الاصطناعي ذات الصلة

من المفيد التمييز بين التعرف التلقائي على الكلام (ASR) والعديد من المصطلحات وثيقة الصلة:

  • تحويل الكلام إلى نص (STT): غالبًا ما يستخدم هذا المصطلح بالتبادل مع ASR. ومع ذلك، يمكن اعتبار STT بمثابة الناتج أو التطبيق المباشر، في حين يشير ASR إلى العملية التكنولوجية الأساسية.
  • تحويل النص إلى كلام (TTS): TTS هي العملية المعاكسة لـ ASR. فهو يركب كلامًا اصطناعيًا من نص مكتوب، مما يتيح تطبيقات مثل الكتب الصوتية والملاحظات الصوتية من نظام تحديد المواقع العالمي (GPS).
  • فهم اللغة الطبيعية (NLU): NLU هي الخطوة التالية بعد أن يحول ASR الكلام إلى نص. بينما يركز ASR على دقة النسخ، فإن NLU معني بتفسير المعنى والقصد والكيانات داخل هذا النص.

التحديات والاتجاهات المستقبلية

على الرغم من التقدم الملحوظ، لا تزال أنظمة ASR تواجه تحديات. لا تزال النسخ الدقيق للكلام في البيئات الصاخبة، والتعامل مع اللهجات واللهجات المتنوعة، والتعامل مع تداخل المتحدثين في المحادثات، وفهم المعنى الدقيق أو تحليل المشاعر مجالات بحث نشطة. تواصل المشاريع الرائدة مفتوحة المصدر مثل Whisper من OpenAI ومجموعات الأدوات مثل Kaldi دفع حدود الممكن.

تركز التطورات المستقبلية على تحسين المتانة من خلال تقنيات التعلم العميق المتقدمة، واستكشاف النماذج متعددة الوسائط التي تجمع الصوت مع المعلومات المرئية (مثل قراءة الشفاه، المتعلقة برؤية الحاسوب)، والاستفادة من تقنيات مثل التعلم بالإشراف الذاتي لتدريب النماذج على مجموعات بيانات ضخمة غير مصنفة. بينما تركز Ultralytics بشكل أساسي على نماذج رؤية الذكاء الاصطناعي مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات و تقسيم الصور، فإن التقدم في مجالات الذكاء الاصطناعي ذات الصلة مثل التعرف على الكلام يساهم في النظام البيئي العام للأنظمة الذكية. يمكنك استكشاف خيارات تدريب ونشر النماذج المرئية في وثائق Ultralytics وإدارة المشاريع باستخدام Ultralytics HUB.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة