Khám phá cách công nghệ Chuyển giọng nói thành văn bản chuyển đổi ngôn ngữ nói thành văn bản bằng AI, cho phép tương tác bằng giọng nói, phiên âm và các công cụ hỗ trợ tiếp cận.
Chuyển giọng nói thành văn bản (STT), còn được gọi là Nhận dạng giọng nói tự động (ASR), là một công nghệ chuyển đổi ngôn ngữ nói thành văn bản viết mà máy có thể đọc được. Khả năng nền tảng này là nền tảng của Trí tuệ nhân tạo (AI) hiện đại, cho phép máy móc hiểu và xử lý lời nói của con người. Về cốt lõi, STT thu hẹp khoảng cách giữa giao tiếp của con người và khả năng hiểu của máy, cung cấp năng lượng cho một loạt các ứng dụng rộng lớn từ trợ lý ảo đến các dịch vụ phiên âm tự động. Quá trình cơ bản liên quan đến các mô hình phức tạp phân tích sóng âm thanh, xác định các thành phần ngữ âm và lắp ráp chúng thành các từ và câu mạch lạc bằng cách sử dụng các nguyên tắc từ Xử lý ngôn ngữ tự nhiên (NLP).
Việc chuyển đổi từ âm thanh thành văn bản được thực hiện thông qua một quy trình gồm các bước phức tạp, được tăng cường đáng kể nhờ những tiến bộ của học sâu. Đầu tiên, hệ thống thu nhận đầu vào âm thanh và số hóa nó. Sau đó, một mô hình âm học, thường là một mạng nơ-ron được huấn luyện trên các tập dữ liệu âm thanh lớn, ánh xạ các tín hiệu số này thành các đơn vị ngữ âm. Tiếp theo, một mô hình ngôn ngữ phân tích các đơn vị ngữ âm để xác định chuỗi từ có khả năng xảy ra cao nhất, thêm hiệu quả sự hiểu biết về ngữ pháp và ngữ cảnh. Quá trình này đã trở nên vô cùng chính xác nhờ các kiến trúc như Mạng nơ-ron hồi quy (RNNs) và Transformers. Các mô hình mạnh mẽ này thường được xây dựng bằng các framework phổ biến như PyTorch và TensorFlow. Để đảm bảo độ chính xác cao, các mô hình này được huấn luyện trên các tập dữ liệu đa dạng, thường sử dụng các kỹ thuật tăng cường dữ liệu (data augmentation) để bao phủ các giọng, phương ngữ và tiếng ồn xung quanh khác nhau, giúp giảm thiên kiến thuật toán (algorithmic bias).
Công nghệ STT được tích hợp vào vô số sản phẩm và dịch vụ chúng ta sử dụng hàng ngày.
Điều quan trọng là phải phân biệt STT với các công nghệ AI liên quan khác.
Mặc dù Ultralytics nổi tiếng với công việc trong Computer Vision (CV) với các mô hình như Ultralytics YOLO, công nghệ STT là một thành phần quan trọng trong việc xây dựng các hệ thống AI toàn diện. Tương lai của AI nằm ở Học đa phương thức (Multi-modal Learning), nơi các mô hình có thể xử lý thông tin từ các nguồn khác nhau cùng một lúc. Ví dụ: một ứng dụng cho AI trong ô tô (AI in automotive) có thể kết hợp nguồn cấp video cho nhận diện đối tượng (object detection) với STT trong cabin cho các lệnh thoại. Xu hướng hướng tới kết nối NLP và CV (bridging NLP and CV) làm nổi bật tầm quan trọng của việc tích hợp các công nghệ này. Các nền tảng như Ultralytics HUB hợp lý hóa việc quản lý và triển khai (deployment) các mô hình AI, cung cấp nền tảng cần thiết để xây dựng và mở rộng quy mô các mô hình đa phương thức (multi-modal models) phức tạp này. Bạn có thể khám phá các tác vụ khác nhau được Ultralytics hỗ trợ (various tasks supported by Ultralytics) để xem vision AI có thể là một phần của một hệ thống lớn hơn, phức tạp hơn như thế nào.
Có rất nhiều công cụ dành cho nhà phát triển. Các nhà cung cấp dịch vụ đám mây cung cấp các API mạnh mẽ, có khả năng mở rộng như Google Cloud Speech-to-Text và Amazon Transcribe. Đối với những người cần kiểm soát nhiều hơn, các bộ công cụ mã nguồn mở như Kaldi cung cấp một khuôn khổ để xây dựng các hệ thống ASR tùy chỉnh. Các dự án như DeepSpeech của Mozilla và các nền tảng như Hugging Face cũng cung cấp quyền truy cập vào các mô hình được đào tạo trước. Mặc dù đã có những tiến bộ đáng kể, nhưng vẫn còn những thách thức, chẳng hạn như phiên âm chính xác giọng nói trong môi trường ồn ào và hiểu các giọng khác nhau. Nghiên cứu đang diễn ra, chẳng hạn như nghiên cứu được trình bày chi tiết trong các ấn phẩm trên arXiv, tập trung vào việc làm cho các hệ thống này trở nên mạnh mẽ hơn và nhận biết ngữ cảnh hơn.