Glosario

Reconocimiento de voz

Descubre cómo la tecnología de reconocimiento de voz transforma el audio en texto, impulsando soluciones de IA como los asistentes de voz, la transcripción y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El reconocimiento del habla, a menudo denominado reconocimiento automático del habla (ASR) o voz a texto, es una tecnología dentro de la Inteligencia Artificial (IA) y la lingüística computacional que permite a los ordenadores comprender y transcribir el lenguaje hablado humano en texto escrito. Sirve como interfaz crucial para la interacción persona-ordenador, permitiendo que los dispositivos y las aplicaciones respondan a los comandos de voz y procesen la entrada de audio. Este campo utiliza en gran medida los principios del Aprendizaje Automático (AM), especialmente el Aprendizaje Profundo (AD), para lograr altos niveles de precisión y manejar las variaciones en los patrones del habla, los acentos y los entornos.

Cómo funciona el reconocimiento de voz

El proceso de conversión de voz a texto suele implicar varias etapas clave. Inicialmente, el audio se captura utilizando un micrófono y se convierte en una señal digital. Este audio en bruto se somete a pasos de preprocesamiento como la reducción de ruido y la normalización. A continuación, se extraen de la señal las características acústicas, que representan características como la frecuencia y la energía a lo largo del tiempo. A continuación, estas características son procesadas por un modelo acústico, que suele ser una sofisticada red neuronal (NN). Entre las arquitecturas más comunes se encuentran las redes neuronales recurrentes (RNN), las redes de memoria a corto plazo (LSTM) y, más recientemente, los modelos Transformer, conocidos por su eficacia en tareas de modelado de secuencias mediante mecanismos como la autoatención. El modelo acústico mapea las características a unidades básicas de sonido, como los fonemas. Por último, un modelo lingüístico, entrenado en extensos corpus de texto (como los que se encuentran en las iniciativas de Big Data ), analiza las secuencias de estas unidades fonéticas para determinar las palabras y frases más probables, teniendo en cuenta la gramática y el contexto. Frameworks como Kaldi y kits de herramientas de plataformas como Hugging Face proporcionan recursos para construir sistemas ASR.

Distinciones clave

Es importante distinguir el reconocimiento del habla de otras tecnologías relacionadas pero distintas:

  • Texto a voz (TTS): Esta tecnología realiza la función opuesta a la ASR, convirtiendo el texto escrito en una salida de audio hablado. Piensa en los lectores de pantalla o en las voces de los asistentes virtuales.
  • Procesamiento del Lenguaje Natural (PLN): Aunque está estrechamente relacionado, el PLN se centra en la comprensión e interpretación del lenguaje (tanto del texto como del habla transcrita) para extraer el significado, la intención, el sentimiento o realizar tareas como la traducción o el resumen. La ASR proporciona la entrada de texto con la que suelen funcionar los sistemas de PNL. El modelado del lenguaje es un componente básico tanto de la ASR como de la PNL.
  • Reconocimiento del orador: Consiste en identificar quién habla, en lugar de lo que se dice. Se utiliza para la autenticación biométrica o la diarización de hablantes (determinar los distintos hablantes de una conversación).

Aplicaciones en el mundo real

La tecnología de reconocimiento de voz está integrada en numerosas aplicaciones de diversos ámbitos:

  • Asistentes virtuales: Sistemas como Amazon Alexa, Google Assistant y Siri de Apple se basan en gran medida en ASR para comprender las órdenes y consultas del usuario.
  • Servicios de transcripción: Herramientas como Otter.ai transcriben automáticamente reuniones, entrevistas y conferencias, haciendo que el contenido de audio se pueda buscar y sea accesible.
  • Sistemas de control por voz: Utilizados ampliamente en vehículos autónomos y coches modernos para el control manos libres de los ajustes de navegación, entretenimiento y climatización(IA en coches autoconducidos).
  • Software de dictado: Permite a los profesionales de campos como la sanidad(AI in Healthcare) y el derecho dictar notas e informes directamente en documentos digitales.
  • Herramientas de accesibilidad: Proporcionan asistencia esencial a las personas con discapacidad, permitiendo la interacción con la tecnología a través de la voz. Proyectos como Common Voice de Mozilla pretenden mejorar la ASR para voces diversas.
  • Atención al cliente: Potencia los sistemas de respuesta de voz interactiva (IVR) y los bots de voz en los centros de llamadas para la asistencia automatizada.

Retos y orientaciones futuras

A pesar de los notables avances, los sistemas ASR siguen afrontando retos. La transcripción precisa del habla en entornos ruidosos, el manejo de diversos acentos y dialectos, el tratamiento de la superposición de hablantes en las conversaciones y la comprensión de significados matizados o el análisis de sentimientos siguen siendo áreas de investigación activas. Los avances futuros se centran en mejorar la robustez mediante técnicas avanzadas de aprendizaje profundo, explorar modelos multimodales que combinen audio con información visual (como la lectura de labios, relacionada con la visión por ordenador), y aprovechar técnicas como el aprendizaje autosupervisado para entrenar modelos en vastos conjuntos de datos sin etiquetar. Aunque Ultralytics se centra principalmente en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, los avances en campos de IA relacionados, como el reconocimiento del habla, contribuyen al ecosistema general de los sistemas inteligentes. Puedes explorar las opciones de entrenamiento y despliegue de modelos de visión en la documentación deUltralytics y gestionar proyectos mediante Ultralytics HUB.

Leer todo