Glossário

Texto para voz

Descubra como a tecnologia avançada de conversão de texto em fala (TTS) transforma o texto em fala realista, melhorando a acessibilidade, a interação com a IA e a experiência do utilizador.

O Text-to-Speech (TTS), também conhecido como síntese de voz, é uma forma de tecnologia de apoio que converte texto escrito em voz falada. Como componente central do Processamento de Linguagem Natural (PLN), o principal objetivo do TTS é gerar um discurso sintetizado que não só seja inteligível, mas também soe tão natural como uma voz humana. Os primeiros sistemas TTS eram frequentemente robóticos e não tinham variação tonal, mas os sistemas modernos, alimentados por aprendizagem profunda, podem produzir um discurso altamente realista e expressivo, tornando-o uma ferramenta vital para a acessibilidade e a interação do utilizador em inúmeras aplicações.

Como funciona a conversão de texto em voz

O processo de conversão de texto em fala audível envolve normalmente duas fases principais. Primeiro, o sistema efectua o pré-processamento do texto, onde analisa o texto de entrada para resolver ambiguidades. Isto envolve a normalização do texto, onde os números, abreviaturas e símbolos são convertidos em palavras escritas (por exemplo, "Dr." torna-se "Doutor" e "10" torna-se "dez"). Em seguida, o sistema gera uma representação fonética do texto utilizando um processo designado por transcrição fonética, dividindo frequentemente as palavras em fonemas, as unidades básicas do som.

A segunda fase é a geração da forma de onda, em que a informação fonética é utilizada para criar o áudio efetivo. Historicamente, isto era feito utilizando métodos como a síntese concatenativa, que junta pequenos trechos de discurso gravado, ou a síntese paramétrica, que gera áudio com base num modelo estatístico. Os sistemas modernos mais avançados utilizam vocoders neurais, que são redes neurais profundas capazes de gerar formas de onda de áudio de alta qualidade, semelhantes às humanas, a partir de caraterísticas linguísticas. Esses avanços melhoraram muito a naturalidade das vozes sintetizadas, capturando nuances como tom, ritmo e entonação. Um grande exemplo desta evolução está documentado na investigação da Google AI sobre o Tacotron 2.

Aplicações de conversão de texto em fala

A tecnologia TTS está integrada em muitos sistemas que utilizamos diariamente, muitas vezes para melhorar a acessibilidade e proporcionar uma interação mãos-livres. Eis dois exemplos importantes:

  • Ferramentas de acessibilidade: O TTS é a pedra angular dos leitores de ecrã, que ajudam as pessoas com deficiência visual através da leitura em voz alta de conteúdos digitais em computadores e dispositivos móveis. Esta tecnologia permite o acesso a sítios Web, documentos e aplicações, promovendo a inclusão digital. Organizações como a American Foundation for the Blind fornecem recursos sobre a forma como estas ferramentas capacitam os utilizadores.
  • Assistentes virtuais e navegação: Os assistentes virtuais, como a Alexa da Amazon e o Assistente do Google, dependem do TTS para comunicar respostas, ler notícias e fornecer informações. Da mesma forma, as aplicações de navegação GPS utilizam o TTS para dar aos condutores indicações passo a passo, permitindo-lhes manter a concentração na estrada.

Texto para voz vs. conceitos relacionados

É importante distinguir o TTS de outras tecnologias relacionadas com o processamento do áudio e da linguagem.

  • Discurso para texto (STT): O STT é o oposto direto do TTS. Enquanto o TTS converte texto em áudio, o STT, também conhecido como reconhecimento de fala, converte a linguagem falada em texto escrito.
  • Geração de texto: Este é o processo de criação de novo conteúdo escrito a partir de uma mensagem, uma tarefa frequentemente executada por um Modelo de Linguagem Ampla (LLM). O TTS não cria novos conteúdos; vocaliza o texto existente.
  • Compreensão da linguagem natural (NLU): A NLU é um subcampo da PNL centrado na compreensão da leitura automática - determinar a intenção e o significado por detrás do texto. O TTS centra-se puramente na conversão do texto em voz, não no seu significado.

Avanços tecnológicos e ferramentas

A qualidade do TTS melhorou drasticamente devido aos avanços da IA. Os sistemas modernos podem produzir um discurso difícil de distinguir das gravações humanas, captando nuances como a emoção e o estilo de fala. A clonagem de voz permite que os sistemas imitem vozes humanas específicas após o treino em quantidades relativamente pequenas de amostras de áudio.

Várias ferramentas e plataformas facilitam o desenvolvimento e a implantação de aplicações TTS:

Conversão de texto em fala e Ultralytics

Embora a Ultralytics se concentre principalmente na Visão por Computador (CV) com modelos como o Ultralytics YOLO para tarefas como a Deteção de Objectos e a Segmentação de Imagens, o TTS pode servir como uma tecnologia complementar. Por exemplo, um sistema de CV que identifica objectos numa cena pode utilizar o TTS para descrever verbalmente as suas descobertas. À medida que a IA evolui para a aprendizagem multimodal, combinando visão e linguagem (ver publicação no blogue sobre a ligação entre PNL e CV), a integração do TTS nos modelos de CV tornar-se-á cada vez mais valiosa. Plataformas como o Ultralytics HUB fornecem ferramentas para gerir modelos de IA, e os desenvolvimentos futuros poderão assistir a uma maior integração de diversas modalidades de IA, incluindo o TTS, num fluxo de trabalho de projeto unificado.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência