Thuật ngữ

Chuyển giọng nói thành văn bản

Khám phá cách công nghệ chuyển giọng nói thành văn bản chuyển đổi ngôn ngữ nói thành văn bản bằng AI, cho phép tương tác bằng giọng nói, phiên âm và các công cụ trợ năng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Speech-to-Text (STT), còn được gọi rộng rãi là Automatic Speech Recognition (ASR), là một công nghệ cho phép máy tính hiểu và phiên âm ngôn ngữ nói của con người thành văn bản viết. Nó tạo thành một cầu nối quan trọng giữa tương tác của con người và xử lý kỹ thuật số trong lĩnh vực rộng hơn của Trí tuệ nhân tạo (AI)Học máy (ML) . Bằng cách chuyển đổi luồng âm thanh thành dữ liệu văn bản, STT cho phép máy móc xử lý, phân tích và phản hồi các đầu vào giọng nói, cung cấp năng lượng cho một loạt các ứng dụng.

Cách thức hoạt động của Speech-to-Text

Cốt lõi của STT bao gồm các thuật toán phức tạp phân tích tín hiệu âm thanh. Quá trình này thường bao gồm hai thành phần chính:

  1. Mô hình âm thanh: Thành phần này ánh xạ các phân đoạn đầu vào âm thanh thành các đơn vị ngữ âm, là những âm thanh cơ bản của một ngôn ngữ. Nó học cách phân biệt giữa các âm thanh khác nhau bất chấp sự khác biệt về cách phát âm, trọng âm và tiếng ồn nền. Các kỹ thuật mô hình hóa âm thanh tiên tiến thường sử dụng các kiến trúc Học sâu (DL) như Mạng nơ-ron hồi quy (RNN) hoặc Transformers .
  2. Mô hình ngôn ngữ: Thành phần này lấy chuỗi các đơn vị ngữ âm từ mô hình âm thanh và chuyển đổi thành các từ, cụm từ và câu mạch lạc. Nó sử dụng xác suất thống kê, thường được học từ các tập dữ liệu văn bản lớn, để dự đoán chuỗi từ có khả năng xảy ra nhất, cải thiện độ chính xác và tính lưu loát của bản phiên âm. Mô hình ngôn ngữ là một khía cạnh cơ bản của Xử lý ngôn ngữ tự nhiên (NLP) .

Việc đào tạo các mô hình này đòi hỏi một lượng lớn dữ liệu âm thanh được gắn nhãn ( dữ liệu đào tạo ) đại diện cho nhiều phong cách nói, ngôn ngữ và điều kiện âm thanh khác nhau.

Ứng dụng trong thế giới thực

Công nghệ STT là một phần không thể thiếu của nhiều ứng dụng hiện đại:

  • Trợ lý ảo: Cho phép ra lệnh bằng giọng nói cho các thiết bị như điện thoại thông minh và loa thông minh ( Siri , Alexa , Google Assistant ). Xem bảng thuật ngữ Trợ lý ảo của chúng tôi.
  • Dịch vụ phiên âm: Tự động chuyển đổi các cuộc họp, bài giảng, cuộc phỏng vấn và thư thoại thành văn bản bằng các công cụ như Otter.ai . Điều này đặc biệt quan trọng trong các lĩnh vực như ghi chép y khoa và tài liệu pháp lý.
  • Hệ thống điều khiển bằng giọng nói: Cho phép vận hành thiết bị rảnh tay, phổ biến trong AI cho hệ thống ô tô .
  • Công cụ trợ năng: Cung cấp phụ đề thời gian thực cho những người khiếm thính, nâng cao khả năng tiếp cận phương tiện truyền thông .
  • Phân tích trung tâm cuộc gọi: Ghi lại cuộc gọi của khách hàng để phân tích tâm lý, xác định xu hướng và cải thiện chất lượng dịch vụ.

Sự khác biệt chính so với các công nghệ liên quan

Điều quan trọng là phải phân biệt STT với các thuật ngữ tương tự:

  • Chuyển văn bản thành giọng nói (TTS) : Thực hiện chức năng ngược lại, chuyển đổi văn bản viết thành âm thanh nói.
  • Nhận dạng người nói: Tập trung vào việc xác định người đang nói dựa trên đặc điểm giọng nói, thay vì ghi lại những gì đang được nói. Hệ thống nhận dạng người nói được sử dụng để xác thực hoặc ghi nhật ký (xác định người đã nói khi nào).
  • Hiểu ngôn ngữ tự nhiên (NLU) : Một lĩnh vực của NLP vượt ra ngoài phạm vi phiên âm để diễn giải ý nghĩa, mục đích và tình cảm đằng sau những lời nói.

Thách thức và định hướng tương lai

Mặc dù có tiến bộ đáng kể, STT vẫn phải đối mặt với những thách thức như phiên âm chính xác giọng nói có trọng âm nặng, tiếng ồn nền, người nói chồng chéo và hiểu ngữ cảnh hoặc sự mơ hồ về ngôn ngữ . Giảm thiểu sự thiên vị của AI học được từ dữ liệu đào tạo mất cân bằng cũng rất quan trọng. Nghiên cứu đang diễn ra, thường được nêu bật trên các nền tảng như Google AI BlogOpenAI Blog , tập trung vào việc cải thiện tính mạnh mẽ, hiệu suất thời gian thực và khả năng đa ngôn ngữ.

Chuyển giọng nói thành văn bản và Ultralytics

Trong khi Ultralytics chủ yếu tập trung vào Computer Vision (CV) với các mô hình YOLO Ultralytics cho các tác vụ như Object DetectionImage Segmentation , Speech-to-Text có thể bổ sung cho các ứng dụng AI trực quan. Ví dụ, trong một hệ thống an ninh thông minh, STT có thể phân tích các mối đe dọa bằng giọng nói được thu lại bằng micrô, hoạt động cùng với YOLO phát hiện đối tượng để cung cấp hiểu biết toàn diện về một sự kiện, có khả năng theo quy trình làm việc của dự án thị giác máy tính . Ultralytics HUB cung cấp một nền tảng để quản lý và triển khai các mô hình AI và khi AI chuyển sang Học tập đa phương thức bằng cách sử dụng các mô hình đa phương thức , việc tích hợp STT với các mô hình thị giác được xây dựng bằng các khuôn khổ như PyTorch sẽ trở nên ngày càng quan trọng. Các bộ công cụ nguồn mở như Kaldi và các dự án như Mozilla DeepSpeech tiếp tục thúc đẩy lĩnh vực này, đóng góp vào các tài nguyên có sẵn trong hệ sinh thái AI rộng lớn hơn được ghi lại trong các tài nguyên như Ultralytics Docs .

Đọc tất cả