Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Speech Recognition

Khám phá cách nhận dạng giọng nói (ASR) chuyển đổi ngôn ngữ nói thành văn bản. Tìm hiểu về mạng thần kinh, các ứng dụng AI thực tế và Ultralytics YOLO26 đa phương thức.

Nhận dạng giọng nói, thường được gọi về mặt kỹ thuật là Nhận dạng giọng nói tự động (ASR), là khả năng cụ thể cho phép máy tính xác định, xử lý và chuyển đổi ngôn ngữ nói thành văn bản viết. Công nghệ này đóng vai trò là cầu nối quan trọng trong tương tác người-máy, cho phép các hệ thống Trí tuệ nhân tạo (AI) tiếp nhận lệnh bằng giọng nói làm đầu vào thay vì chỉ dựa vào bàn phím hoặc màn hình cảm ứng. Bằng cách phân tích các dạng sóng âm thanh và đối chiếu chúng với các bộ dữ liệu ngôn ngữ khổng lồ, các hệ thống này có thể diễn giải các giọng vùng miền khác nhau, tốc độ nói thay đổi và từ vựng phức tạp. Quá trình này là thành phần nền tảng của các quy trình Xử lý ngôn ngữ tự nhiên (NLP) hiện đại, giúp chuyển đổi âm thanh phi cấu trúc thành dữ liệu có cấu trúc, máy có thể đọc được.

Link to this sectionCách thức hoạt động của nhận dạng giọng nói#

Kiến trúc đằng sau nhận dạng giọng nói đã phát triển từ khớp mẫu đơn giản đến các pipeline tinh vi được hỗ trợ bởi Deep Learning (DL). Quá trình này thường tuân theo một trình tự các bước quan trọng. Đầu tiên, âm thanh analog thô được thu và số hóa. Sau đó, hệ thống thực hiện trích xuất đặc trưng để lọc bỏ tiếng ồn nền và cô lập các đặc điểm ngữ âm, thường là trực quan hóa âm thanh dưới dạng spectrogram để ánh xạ cường độ tần số theo thời gian.

Sau khi các đặc trưng âm thanh được cô lập, một mô hình âm học sẽ tham gia vào quá trình này. Mô hình này, thường được xây dựng bằng Mạng thần kinh (NN) như Mạng thần kinh tái phát (RNN) hoặc Transformer hiện đại, ánh xạ các tín hiệu âm thanh thành các âm vị—những đơn vị âm thanh cơ bản. Cuối cùng, một mô hình ngôn ngữ phân tích trình tự các âm vị để dự đoán những từ và câu có khả năng xảy ra cao nhất. Bước này rất quan trọng để phân biệt giữa các từ đồng âm (như "to", "two" và "too") dựa trên ngữ cảnh. Các nhà phát triển sử dụng các framework như PyTorch để huấn luyện các mô hình đòi hỏi nhiều dữ liệu này.

Link to this sectionCác ứng dụng trong thực tế#

Nhận dạng giọng nói hiện đã trở nên phổ biến, thúc đẩy hiệu quả và khả năng tiếp cận trên nhiều lĩnh vực.

  • Tài liệu y tế: Trong lĩnh vực y tế, AI trong chăm sóc sức khỏe cho phép các bác sĩ sử dụng các công cụ chuyên dụng từ các nhà cung cấp như Nuance Communications để đọc các ghi chú lâm sàng trực tiếp vào Hồ sơ sức khỏe điện tử (EHR). Điều này làm giảm đáng kể áp lực hành chính và cải thiện độ chính xác của dữ liệu.
  • Giao diện ô tô: Các phương tiện hiện đại tích hợp điều khiển bằng giọng nói để cho phép người lái quản lý hệ thống dẫn đường và giải trí mà không cần dùng tay. AI trong ô tô ưu tiên sự an toàn bằng cách giảm thiểu sự xao nhãng về thị giác thông qua các giao diện giọng nói đáng tin cậy này.
  • Trợ lý ảo: Các tác nhân tiêu dùng như Siri của Apple sử dụng ASR để phân tích các lệnh cho các tác vụ từ đặt bộ hẹn giờ đến điều khiển các thiết bị nhà thông minh, đóng vai trò là lớp đầu vào chính cho Trợ lý ảo.

Link to this sectionPhân biệt các thuật ngữ liên quan#

Mặc dù thường được dùng một cách thông thường để chỉ cùng một thứ, nhưng điều quan trọng là phải phân biệt nhận dạng giọng nói với các khái niệm liên quan trong bảng thuật ngữ AI.

  • Chuyển đổi giọng nói thành văn bản (STT): STT đề cập cụ thể đến chức năng đầu ra (chuyển đổi âm thanh thành văn bản), trong khi nhận dạng giọng nói bao hàm phương pháp công nghệ rộng hơn để xác định âm thanh.
  • Hiểu ngôn ngữ tự nhiên (NLU): ASR chuyển đổi âm thanh thành văn bản, nhưng nó không tự động "hiểu" thông điệp. NLU là quy trình hạ nguồn nhằm diễn giải ý định, cảm xúc và ý nghĩa đằng sau các từ được chuyển đổi.
  • Chuyển đổi văn bản thành giọng nói (TTS): Đây là thao tác ngược lại, nơi hệ thống tổng hợp giọng nói nhân tạo giống con người từ văn bản viết.

Link to this sectionTích hợp với thị giác máy tính#

Biên giới tiếp theo của các hệ thống thông minh là Học đa phương thức, kết hợp dữ liệu thính giác và thị giác. Ví dụ, một robot dịch vụ có thể sử dụng YOLO26 để phát hiện đối tượng theo thời gian thực nhằm xác định vị trí một người dùng cụ thể trong phòng, đồng thời sử dụng nhận dạng giọng nói để hiểu một lệnh như "mang cho tôi chai nước". Sự hội tụ này tạo ra các tác nhân AI toàn diện có khả năng vừa nhìn vừa nghe. Nền tảng Ultralytics tạo điều kiện thuận lợi cho việc quản lý các bộ dữ liệu phức tạp này và việc huấn luyện các mô hình mạnh mẽ cho các ứng dụng đa phương thức như vậy.

Ví dụ Python sau đây minh họa cách sử dụng thư viện SpeechRecognition, một công cụ wrapper phổ biến, để chuyển đổi một tệp âm thanh thành văn bản.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

Hiệu suất hệ thống thường được đánh giá bằng chỉ số Tỷ lệ lỗi từ (WER), trong đó điểm số thấp hơn cho thấy độ chính xác cao hơn. Để hiểu sâu hơn về cách các công nghệ này hoạt động cùng với các mô hình thị giác, hãy khám phá hướng dẫn của chúng tôi về kết nối NLP và Computer Vision.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning