Glosario

Reconocimiento de voz

Descubra cómo la tecnología de reconocimiento de voz transforma el audio en texto, impulsando soluciones de IA como asistentes de voz, transcripción y mucho más.

El reconocimiento del habla, también conocido como reconocimiento automático del habla (ASR) o reconocimiento informático del habla, es una tecnología que permite a un ordenador o dispositivo identificar y convertir el lenguaje hablado en texto legible por máquina. Es uno de los componentes fundamentales de la Inteligencia Artificial (IA) moderna, ya que tiende un puente entre el habla humana y la comprensión computacional. En esencia, la ASR analiza las ondas sonoras, las procesa mediante sofisticados algoritmos y produce una transcripción textual, lo que constituye una parte fundamental de las cadenas de procesamiento del lenguaje natural (PLN ).

Cómo funciona el reconocimiento de voz

El proceso de conversión de voz en texto suele constar de varias etapas impulsadas por el aprendizaje automático (Machine Learning, ML). En primer lugar, el sistema captura el audio y lo descompone en pequeños sonidos distintos. Mediante un proceso llamado extracción de características, la forma de onda del audio se convierte en una representación digital que el modelo puede analizar.

A continuación, un modelo acústico, a menudo una red neuronal profunda, analiza estas características para asignarlas a fonemas, las unidades básicas de sonido de una lengua. Por último, un modelo lingüístico toma la secuencia de fonemas y utiliza conocimientos estadísticos para ensamblarlos en palabras y frases coherentes. La calidad de estos sistemas ha mejorado drásticamente con la llegada del aprendizaje profundo y los grandes conjuntos de datos, y marcos como PyTorch y TensorFlow han sido fundamentales para su desarrollo.

Aplicaciones en el mundo real

El reconocimiento de voz está integrado en innumerables aplicaciones que conforman nuestras interacciones diarias con la tecnología.

Asistentes virtuales: Servicios como Siri de Apple y Amazon Alexa se basan en ASR para procesar comandos de voz, responder preguntas y realizar tareas.
Transcripción automática: La ASR se utiliza para crear registros escritos de contenidos de audio y vídeo, como transcripciones de reuniones, subtítulos de vídeos y dictados para profesionales médicos. Esta tecnología es una característica esencial de servicios como Google Cloud Speech-to-Text.
Sistemas de control en el automóvil: Los vehículos modernos utilizan el reconocimiento de voz para que los conductores puedan controlar la navegación, el entretenimiento y la climatización con manos libres, lo que mejora la seguridad en las soluciones de automoción.

Conceptos relacionados con la IA

Conviene distinguir la ASR de varios términos estrechamente relacionados:

Voz a texto (STT): Este término suele utilizarse indistintamente con ASR. Sin embargo, STT puede considerarse el resultado directo o la aplicación, mientras que ASR se refiere al proceso tecnológico subyacente.
Texto a voz (TTS): El TTS es el proceso inverso al ASR. Sintetiza voz artificial a partir de texto escrito, lo que permite aplicaciones como audiolibros y respuestas de voz en navegación GPS.
Comprensión del Lenguaje Natural (NLU): NLU es el siguiente paso después de que ASR convierta el habla en texto. Mientras que ASR se centra en la precisión de la transcripción, NLU se ocupa de interpretar el significado, la intención y las entidades de ese texto.

Retos y perspectivas

A pesar de los notables avances, los sistemas ASR siguen afrontando retos. La transcripción precisa del habla en entornos ruidosos, el tratamiento de diversos acentos y dialectos, el tratamiento de la superposición de hablantes en las conversaciones y la comprensión de significados matizados o el análisis de sentimientos siguen siendo áreas de investigación activas. Proyectos pioneros de código abierto como Whisper de OpenAI y conjuntos de herramientas como Kaldi siguen ampliando los límites de lo posible.

Los avances futuros se centran en mejorar la robustez mediante técnicas avanzadas de aprendizaje profundo, explorar modelos multimodales que combinen audio con información visual (como la lectura de labios, relacionada con la visión por ordenador) y aprovechar técnicas como el aprendizaje autosupervisado para entrenar modelos en vastos conjuntos de datos sin etiquetar. Aunque Ultralytics se centra principalmente en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, los avances en campos de IA relacionados, como el reconocimiento del habla, contribuyen al ecosistema general de sistemas inteligentes. Puede explorar las opciones de entrenamiento y despliegue de modelos de visión en la documentación de Ultralytics y gestionar proyectos utilizando Ultralytics HUB.

Reconocimiento de voz

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona el reconocimiento de voz

Aplicaciones en el mundo real

Conceptos relacionados con la IA

Retos y perspectivas

Leer más en esta categoría

Automatización de la fabricación mediante IA de visión

El Internet industrial de las cosas (IIoT) explicado

Lo más destacado de Ultralytics en la WAIC 2025 de Shanghái

Únase a la comunidad Ultralytics