Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Texto a voz

Descubra cómo la tecnología avanzada de texto a voz (TTS) transforma el texto en voz realista, mejorando la accesibilidad, la interacción con la IA y la experiencia del usuario.

El texto a voz (TTS), también conocido como síntesis de voz, es una tecnología de asistencia transformadora que convierte el texto escrito en voz hablada. texto escrito en voz hablada. Como rama especializada del Procesamiento del Lenguaje Natural (PLN), Los sistemas TTS están diseñados para interpretar datos textuales y generar audio que imite el ritmo, la entonación y la pronunciación del habla humana. pronunciación del habla humana. Mientras que las primeras iteraciones producían sonidos robóticos y monótonos, las innovaciones modernas en Deep Learning (DL) han permitido la creación de voces muy naturales y expresivas. Esta capacidad es fundamental para mejorar las interfaces de usuario, hacer el contenido digital digitales más accesibles y permitir una interacción fluida entre los seres humanos y los sistemas de Inteligencia Artificial (IA). sistemas de inteligencia artificial (IA).

Mecanismo de conversión de texto en voz

La conversión de texto a audio es un proceso de varias etapas que implica sofisticados análisis lingüísticos y acústicos. En comienza con la normalización del texto, que se limpia y formatea, convirtiendo números, abreviaturas y símbolos en sus equivalentes escritos (por ejemplo, "10 km" se convierte en "diez kilómetros"). en sus equivalentes escritos (por ejemplo, "10km" se convierte en "diez kilómetros"). A continuación, el sistema transcripción fonética, asignando las palabras a fonemas, que son las unidades de sonido que distinguen una palabra de otra (véanse las directrices IPA). una palabra de otra (véanse las directrices IPA).

En la etapa final, el sistema genera la forma de onda de audio. Los métodos tradicionales utilizaban la síntesis concatenativa para para unir fragmentos de voz pregrabados. Sin embargo, los sistemas actuales se basan en redes neuronales (NN) y arquitecturas como los Transformadores para generar voz desde cero. En vocodificadores neuronales producen un audio más suave y realista al predecir las mejores características acústicas para una secuencia de texto dada. secuencia de texto, una técnica ejemplificada por modelos como WaveNet deGoogle.

Aplicaciones en el mundo real

La tecnología TTS está omnipresente en los programas informáticos modernos, ya que impulsa aplicaciones que requieren respuesta auditiva o manos libres. manos libres.

  • Accesibilidad e inclusión: TTS es la columna vertebral de los lectores de pantalla, permitiendo a las personas con personas con discapacidad visual a consumir contenidos digitales. Al leer en voz alta sitios web, documentos y correos electrónicos, estas herramientas salvan la brecha digital. Los avances en este campo son cruciales para cumplir normas como las Pautas de Accesibilidad al Contenido en la Web (WCAG). En términos más amplios, esta tecnología apoya ayuda a los pacientes con dificultades de con dificultades de lectura o enfermedades neurodegenerativas.
  • Navegación inteligente y asistentes: Sistemas GPS en AI en aplicaciones de automoción se basan en TTS para para ofrecer a los conductores indicaciones giro a giro que les permitan mantener la vista en la carretera. Del mismo modo, asistentes virtuales como Siri y Alexa utilizan TTS para comunicar verbalmente a los usuarios resultados de búsquedas, recordatorios y actualizaciones del estado de su hogar inteligente.

Distinción entre texto y voz y conceptos afines

Para entender el STT hay que distinguirlo de otras tecnologías de audio y lenguaje presentes en el panorama de la IA.

  • De voz a texto: Es el proceso inverso al TTS. Mientras que el TTS genera audio a partir de texto, el Speech-to-Text (o reconocimiento automático del habla) captura el lenguaje hablado y lo transcribe en texto escrito. (o reconocimiento automático del habla) capta el lenguaje hablado y lo transcribe a texto escrito.
  • IA Generativa: El TTS es una forma de IA generativa centrada en el audio. Sin embargo, a diferencia de modelos de generación de texto que crean nuevas narrativas (por ejemplo, escribir una historia), el TTS vocaliza estrictamente la entrada proporcionada sin alterar su significado semántico.
  • Clonación de voz: Aunque está relacionada, la clonación de voz es un subconjunto específico de TTS que pretende replicar la voz de una persona concreta utilizando una pequeña muestra de su habla. la voz de una persona concreta utilizando una pequeña muestra de su habla, lo que plantea cuestiones ética de la IA.

Integración de la conversión de texto en voz con la visión por ordenador

Ultralytics se especializa principalmente en Visión por Computador (CV), ofreciendo modelos modelos como YOLO11 para detección de objetos. Sin embargo, la combinación de CV con TTS crea potentes aplicaciones de aprendizaje multimodal. En ejemplo, un sistema de visión para discapacitados visuales puede detect objetos en una habitación y utilizar TTS para anunciarlos en voz alta, de este modo, se puede conocer el entorno en tiempo real.

El siguiente ejemplo Python muestra cómo combinar un modeloYOLO11 Ultralytics con una sencilla biblioteca TTS (gTTS) para detect un objeto y vocalizar el resultado.

from gtts import gTTS
from ultralytics import YOLO

# Load the official YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Get the class name of the first detected object
detected_class = results[0].names[int(results[0].boxes.cls[0])]

# Convert the detection text to speech
tts = gTTS(text=f"I see a {detected_class}", lang="en")
tts.save("detection_alert.mp3")

Este flujo de trabajo ilustra el potencial de unir la percepción visual con la emisión vocal. A medida que evolucione el ecosistema, la plataformaUltralytics facilitará la gestión de estos complejos procesos de IA en varias fases, lo que permitirá a los desarrolladores desplegar soluciones integrales que vean, entiendan y hablen. Para más información sobre la integración de diversas modalidades de IA, explore nuestras ideas sobre el puente entre la PNL y la CV.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora