اكتشف كيف تقوم تقنية التعرُّف على الكلام بتحويل الصوت إلى نص، وتشغيل حلول الذكاء الاصطناعي مثل المساعد الصوتي والنسخ الصوتي وغير ذلك الكثير.
التعرّف على الكلام، والمعروف أيضًا باسم التعرّف التلقائي على الكلام (ASR) أو التعرّف على الكلام الحاسوبي، هو تقنية تمكّن الكمبيوتر أو الجهاز من تحديد اللغة المنطوقة وتحويلها إلى نص يمكن قراءته آليًا. وهي بمثابة مكون أساسي للذكاء الاصطناعي الحديث (AI)، حيث تعمل على سد الفجوة بين الكلام البشري والفهم الحاسوبي. في جوهرها، تقوم ASR بتحليل الموجات الصوتية ومعالجتها باستخدام خوارزميات متطورة وإنتاج نص مكتوب، وتشكل جزءًا مهمًا من خطوط أنابيب معالجة اللغات الطبيعية (NLP).
تتضمن عملية تحويل الكلام إلى نص عادةً عدة مراحل مدعومة بالتعلم الآلي (ML). أولاً، يلتقط النظام الصوت ويقسمه إلى أصوات صغيرة ومميزة. وباستخدام عملية تسمى استخراج السمات، يتم تحويل الشكل الموجي الصوتي إلى تمثيل رقمي يمكن للنموذج تحليله.
بعد ذلك، يقوم نموذج صوتي، غالبًا ما يكون عبارة عن شبكة عصبية عميقة، بتحليل هذه السمات لتحويلها إلى فونيمات - وهي الوحدات الأساسية للصوت في اللغة. وأخيرًا، يأخذ النموذج اللغوي تسلسل الفونيمات ويستخدم المعرفة الإحصائية لتجميعها في كلمات وجمل متماسكة. وقد تحسنت جودة هذه الأنظمة بشكل كبير مع ظهور التعلم العميق ومجموعات البيانات الكبيرة، حيث لعبت أطر مثل PyTorch و TensorFlow دورًا أساسيًا في تطويرها.
تم دمج التعرف على الكلام في عدد لا يحصى من التطبيقات التي تشكل تفاعلاتنا اليومية مع التكنولوجيا.
من المفيد التمييز بين ASR والعديد من المصطلحات ذات الصلة الوثيقة:
على الرغم من التقدم الملحوظ، لا تزال أنظمة ASR تواجه تحديات. حيث لا يزال تدوين الكلام بدقة في البيئات الصاخبة، والتعامل مع اللهجات واللهجات المتنوعة، والتعامل مع تداخل المتحدثين في المحادثات، وفهم المعنى الدقيق أو تحليل المشاعر، مجالات بحثية نشطة. وتواصل المشاريع الرائدة مفتوحة المصدر، مثل مشروع OpenAI's Whisper ومجموعات الأدوات مثل Kaldi، دفع حدود الممكن.
وتركز التطورات المستقبلية على تحسين المتانة من خلال تقنيات التعلم العميق المتقدمة، واستكشاف النماذج متعددة الوسائط التي تجمع بين الصوت والمعلومات المرئية (مثل قراءة الشفاه، المرتبطة بالرؤية الحاسوبية)، والاستفادة من تقنيات مثل التعلم الخاضع للإشراف الذاتي لتدريب النماذج على مجموعات بيانات ضخمة غير موسومة. بينما يركز Ultralytics في المقام الأول على نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور، فإن التقدم في مجالات الذكاء الاصطناعي ذات الصلة مثل التعرف على الكلام يساهم في النظام البيئي العام للأنظمة الذكية. يمكنك استكشاف خيارات تدريب النماذج ونشرها لنماذج الرؤية في وثائق Ultralytics وإدارة المشاريع باستخدام Ultralytics HUB.