Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعرف على الكلام

اكتشف كيف يحول التعرف على الكلام (ASR) اللغة المنطوقة إلى نص. تعرف على الشبكات العصبية وتطبيقات الذكاء الاصطناعي في العالم الحقيقي و Ultralytics متعدد الوسائط.

التعرف على الكلام، الذي يشار إليه غالبًا من الناحية التقنية باسم التعرف التلقائي على الكلام (ASR)، هو القدرة المحددة التي تمكن الكمبيوتر من التعرف على اللغة المنطوقة ومعالجتها وتحويلها إلى نص مكتوب. تعمل هذه التقنية كجسر حيوي في التفاعل بين الإنسان والكمبيوتر، مما يسمح لأنظمة الذكاء الاصطناعي (AI) بقبول الأوامر الصوتية كمدخلات بدلاً من الاعتماد فقط على لوحات المفاتيح أو شاشات اللمس. من خلال تحليل أشكال الموجات الصوتية ومقارنتها بمجموعات بيانات لغوية ضخمة، يمكن لهذه الأنظمة تفسير اللهجات المتنوعة وسرعات الكلام المختلفة والمفردات المعقدة. هذه العملية هي مكون أساسي في عمليات معالجة اللغة الطبيعية (NLP) الحديثة، حيث تحول الأصوات غير المنظمة إلى بيانات منظمة يمكن قراءتها آليًا.

كيفية عمل التعرّف على الكلام

تطورت بنية التعرف على الكلام من مجرد مطابقة القوالب البسيطة إلى خطوط إنتاج متطورة مدعومة بالتعلم العميق (DL). تتبع العملية بشكل عام سلسلة من الخطوات الحاسمة. أولاً، يتم التقاط الصوت التناظري الخام وتحويله إلى صيغة رقمية. ثم يقوم النظام باستخراج الميزات لتصفية ضوضاء الخلفية وعزل الخصائص الصوتية، وغالباً ما يتم تصور الصوت على شكل مخطط طيفي لرسم خريطة لكثافة الترددات بمرور الوقت.

بمجرد عزل الميزات الصوتية، يتم استخدام نموذج صوتي. هذا النموذج، الذي غالبًا ما يتم إنشاؤه باستخدام شبكة عصبية (NN) مثل شبكة عصبية متكررة (RNN) أو محول حديث، يقوم بتعيين الإشارات الصوتية إلى الصوتيات — الوحدات الأساسية للصوت. أخيرًا، يقوم نموذج لغوي بتحليل تسلسل الفونيمات لتوقع الكلمات والجمل الأكثر احتمالًا. هذه الخطوة مهمة للغاية للتمييز بين الكلمات المتجانسة (مثل "to" و"two" و"too") بناءً على السياق. يستخدم المطورون أطر عمل مثل PyTorch لتدريب هذه النماذج كثيفة البيانات.

تطبيقات واقعية

أصبح التعرف على الكلام الآن شائعًا في كل مكان، مما يعزز الكفاءة وإمكانية الوصول في العديد من القطاعات.

  • وثائق الرعاية الصحية: في المجال الطبي، تتيح الذكاء الاصطناعي في مجال الرعاية الصحية للأطباء استخدام أدوات متخصصة من مزودي خدمات مثل Nuance Communications لإملاء الملاحظات السريرية مباشرة في السجلات الصحية الإلكترونية (EHR). وهذا يقلل بشكل كبير من الإرهاق الإداري ويحسن دقة البيانات.
  • واجهات السيارات: تدمج السيارات الحديثة التحكم الصوتي لتسمح للسائقين بإدارة أنظمة الملاحة والترفيه دون استخدام اليدين. يعطي الذكاء الاصطناعي في السيارات الأولوية للسلامة من خلال تقليل عوامل التشتيت البصري إلى الحد الأدنى بفضل هذه الواجهات الصوتية الموثوقة.
  • المساعدون الافتراضيون: يستخدم وكلاء المستهلكين مثل Siri من Apple تقنية ASR لتحليل الأوامر لمهام تتراوح من ضبط المؤقتات إلى التحكم في الأجهزة المنزلية الذكية، حيث يعملون كطبقة الإدخال الأساسية لـ المساعد الافتراضي.

التمييز بين المصطلحات ذات الصلة

على الرغم من استخدامه بشكل غير رسمي في كثير من الأحيان ليعني الشيء نفسه، من المهم التمييز بين التعرف على الكلام والمفاهيم ذات الصلة في قاموس مصطلحات الذكاء الاصطناعي.

  • تحويل الكلام إلى نص (STT): يشير STT بشكل خاص إلى وظيفة الإخراج (تحويل الصوت إلى نص)، في حين أن التعرف على الكلام يشمل منهجية تقنية أوسع نطاقًا لتحديد الصوت.
  • فهم اللغة الطبيعية (NLU): تقوم تقنية التعرف على الكلام (ASR) بتحويل الصوت إلى نص، ولكنها لا "تفهم" الرسالة في حد ذاتها. تقنية فهم اللغة الطبيعية (NLU) هي العملية التالية التي تفسر المقصد والمشاعر والمعنى وراء الكلمات المكتوبة.
  • تحويل النص إلى كلام (TTS): هذه هي العملية العكسية، حيث يقوم النظام بتوليف كلام اصطناعي شبيه بالكلام البشري من نص مكتوب.

التكامل مع الرؤية الحاسوبية

الحدود التالية للأنظمة الذكية هي التعلم متعدد الوسائط، الذي يجمع بين البيانات السمعية والمرئية. على سبيل المثال، قد يستخدم روبوت الخدمة YOLO26 للكشف عن الأشياء في الوقت الفعلي لتحديد موقع مستخدم معين في غرفة، مع استخدام التعرف على الكلام في نفس الوقت لفهم أمر مثل "أحضر لي زجاجة الماء ". يؤدي هذا التكامل إلى إنشاء عوامل ذكاء اصطناعي شاملة قادرة على الرؤية والسمع. تسهل Ultralytics إدارة هذه مجموعات البيانات المعقدة وتدريب نماذج قوية لمثل هذه التطبيقات متعددة الوسائط.

يوضّح مثال Python التالي كيفية استخدام الأداة SpeechRecognition مكتبة، أداة تغليف شائعة ، لنسخ ملف صوتي.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

عادةً ما يتم تقييم أداء النظام باستخدام مقياس معدل الأخطاء الكلمية (WER) ، حيث تشير النتيجة الأقل إلى دقة أعلى. لمزيد من المعلومات حول كيفية عمل هذه التقنيات جنبًا إلى جنب مع نماذج الرؤية، اطلع على دليلنا حول ربط معالجة اللغة الطبيعية بالرؤية الحاسوبية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن