Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng giọng nói

Khám phá cách nhận dạng giọng nói (ASR) chuyển đổi ngôn ngữ nói thành văn bản. Tìm hiểu về mạng nơ-ron, các ứng dụng AI trong thế giới thực và đa phương thức. Ultralytics YOLO26.

Nhận dạng giọng nói, thường được gọi một cách kỹ thuật là Nhận dạng giọng nói tự động (ASR), là khả năng cụ thể cho phép máy tính nhận diện, xử lý và chuyển đổi ngôn ngữ nói thành văn bản. Công nghệ này đóng vai trò là cầu nối quan trọng trong tương tác giữa người và máy tính, cho phép các hệ thống Trí tuệ nhân tạo (AI) chấp nhận lệnh thoại làm đầu vào thay vì chỉ dựa vào bàn phím hoặc màn hình cảm ứng. Bằng cách phân tích dạng sóng âm thanh và so khớp chúng với các tập dữ liệu ngôn ngữ khổng lồ, các hệ thống này có thể diễn giải nhiều giọng điệu khác nhau, tốc độ nói khác nhau và vốn từ vựng phức tạp. Quá trình này là một thành phần nền tảng của quy trình Xử lý ngôn ngữ tự nhiên (NLP) hiện đại, chuyển đổi âm thanh không cấu trúc thành dữ liệu có cấu trúc, có thể đọc được bằng máy.

Cách Nhận Dạng Giọng Nói Hoạt Động

Kiến trúc đằng sau công nghệ nhận dạng giọng nói đã phát triển từ việc so khớp mẫu đơn giản đến các quy trình phức tạp được hỗ trợ bởi Học sâu (Deep Learning - DL) . Quá trình này thường tuân theo một chuỗi các bước quan trọng. Đầu tiên, âm thanh analog thô được thu lại và số hóa. Sau đó, hệ thống thực hiện trích xuất đặc trưng để lọc bỏ tiếng ồn nền và phân lập các đặc điểm ngữ âm, thường trực quan hóa âm thanh dưới dạng biểu đồ phổ để lập bản đồ cường độ tần số theo thời gian.

Sau khi các đặc điểm âm thanh được tách biệt, mô hình âm học sẽ được sử dụng. Mô hình này, thường được xây dựng bằng Mạng thần kinh (NN) như Mạng thần kinh hồi quy (RNN) hoặc Transformer hiện đại, sẽ ánh xạ các tín hiệu âm thanh thành các âm vị—đơn vị cơ bản của âm thanh. Cuối cùng, mô hình ngôn ngữ sẽ phân tích chuỗi âm vị để dự đoán các từ và câu có khả năng xuất hiện cao nhất. Bước này rất quan trọng để phân biệt giữa các từ đồng âm (như "to," "two," và "too") dựa trên ngữ cảnh. Các nhà phát triển sử dụng các framework như PyTorch để huấn luyện các mô hình đòi hỏi nhiều dữ liệu này.

Các Ứng dụng Thực tế

Công nghệ nhận dạng giọng nói hiện nay đã trở nên phổ biến, thúc đẩy hiệu quả và khả năng tiếp cận trong nhiều lĩnh vực.

  • Ghi chép hồ sơ y tế: Trong lĩnh vực y tế, trí tuệ nhân tạo (AI ) cho phép các bác sĩ sử dụng các công cụ chuyên dụng từ các nhà cung cấp như Nuance Communications để ghi chép trực tiếp các ghi chú lâm sàng vào Hồ sơ sức khỏe điện tử (EHR). Điều này giúp giảm đáng kể gánh nặng công việc hành chính và cải thiện độ chính xác của dữ liệu.
  • Giao diện ô tô: Các phương tiện hiện đại tích hợp điều khiển bằng giọng nói cho phép người lái quản lý hệ thống định vị và giải trí mà không cần dùng tay. Trí tuệ nhân tạo trong ô tô ưu tiên sự an toàn bằng cách giảm thiểu sự xao nhãng thị giác thông qua các giao diện giọng nói đáng tin cậy này.
  • Trợ lý ảo: Các trợ lý ảo như Siri của Apple sử dụng công nghệ nhận dạng giọng nói tự động (ASR) để phân tích các lệnh thực hiện các tác vụ từ cài đặt hẹn giờ đến điều khiển thiết bị nhà thông minh, đóng vai trò là lớp nhập liệu chính cho trợ lý ảo .

Phân biệt các thuật ngữ liên quan

Mặc dù thường được sử dụng một cách thông thường để chỉ cùng một nghĩa, nhưng điều quan trọng là phải phân biệt nhận dạng giọng nói với các khái niệm liên quan trong thuật ngữ AI.

  • Chuyển đổi giọng nói thành văn bản (STT) : STT đề cập cụ thể đến chức năng đầu ra (chuyển đổi âm thanh thành văn bản), trong khi nhận dạng giọng nói bao gồm phương pháp công nghệ rộng hơn để xác định âm thanh.
  • Hiểu ngôn ngữ tự nhiên (NLU) : Nhận dạng giọng nói tự động (ASR) chuyển đổi âm thanh thành văn bản, nhưng bản thân nó không "hiểu" thông điệp. NLU là quá trình tiếp theo giúp diễn giải ý định, cảm xúc và ý nghĩa đằng sau các từ đã được phiên âm.
  • Chuyển văn bản thành giọng nói (Text-to-Speech - TTS) : Đây là thao tác ngược lại, trong đó hệ thống tổng hợp giọng nói nhân tạo giống con người từ văn bản viết.

Tích hợp với Thị giác máy tính

Bước tiến tiếp theo trong lĩnh vực hệ thống thông minh là Học tập đa phương thức , kết hợp dữ liệu thính giác và thị giác. Ví dụ, một robot dịch vụ có thể sử dụng YOLO26 để phát hiện vật thể theo thời gian thực nhằm xác định vị trí của một người dùng cụ thể trong phòng, đồng thời sử dụng nhận dạng giọng nói để hiểu một mệnh lệnh như "mang cho tôi chai nước". Sự hội tụ này tạo ra các tác nhân AI toàn diện có khả năng vừa nhìn vừa nghe. Nền tảng Ultralytics hỗ trợ quản lý các tập dữ liệu phức tạp này và đào tạo các mô hình mạnh mẽ cho các ứng dụng đa phương thức như vậy.

Sau đây là Python ví dụ minh họa cách sử dụng SpeechRecognition thư viện, một công cụ hỗ trợ phổ biến, được sử dụng để chuyển đổi tệp âm thanh thành văn bản.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

Hiệu suất hệ thống thường được đánh giá bằng chỉ số Tỷ lệ lỗi từ (WER) , trong đó điểm số thấp hơn cho thấy độ chính xác cao hơn. Để hiểu rõ hơn về cách các công nghệ này hoạt động cùng với các mô hình thị giác, hãy tham khảo hướng dẫn của chúng tôi về việc kết nối Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay