Glosario

Reconocimiento de voz

Descubra cómo la tecnología de reconocimiento de voz transforma el audio en texto, impulsando soluciones de IA como asistentes de voz, transcripción y mucho más.

El reconocimiento de voz, también conocido como reconocimiento automático de voz (ASR) o conversión de voz a texto, es una tecnología de la Inteligencia Artificial (IA) y la lingüística computacional que permite a los ordenadores comprender y transcribir el lenguaje hablado humano en texto escrito. Constituye una interfaz esencial para la interacción entre el ser humano y el ordenador, ya que permite a los dispositivos y las aplicaciones responder a comandos de voz y procesar entradas de audio. Este campo utiliza en gran medida los principios del aprendizaje automático (Machine Learning, ML), especialmente el aprendizaje profundo (Deep Learning, DL), para lograr altos niveles de precisión y manejar las variaciones en los patrones del habla, los acentos y los entornos.

Cómo funciona el reconocimiento de voz

El proceso de conversión de voz a texto suele constar de varias etapas clave. En primer lugar, el audio se capta con un micrófono y se convierte en una señal digital. Este audio en bruto se somete a etapas de preprocesamiento como la reducción de ruido y la normalización. A continuación, se extraen de la señal características acústicas, como la frecuencia y la energía a lo largo del tiempo. Estas características las procesa un modelo acústico, que suele ser una sofisticada red neuronal (NN). Entre las arquitecturas más comunes se encuentran las redes neuronales recurrentes (RNN), las redes de memoria a corto plazo (LSTM) y, más recientemente, los modelos Transformer, conocidos por su eficacia en tareas de modelado de secuencias mediante mecanismos como la autoatención. El modelo acústico asigna las características a unidades básicas de sonido, como los fonemas. Por último, un modelo lingüístico, entrenado en extensos corpus de texto (como los que se encuentran en iniciativas de Big Data ), analiza secuencias de estas unidades fonéticas para determinar las palabras y frases más probables, teniendo en cuenta la gramática y el contexto. Frameworks como Kaldi y toolkits de plataformas como Hugging Face ofrecen recursos para construir sistemas ASR.

Distinciones clave

Es importante distinguir el reconocimiento de voz de otras tecnologías relacionadas pero distintas:

  • Texto a voz (TTS): Esta tecnología realiza la función opuesta a la ASR, convirtiendo el texto escrito en audio hablado. Piensa en los lectores de pantalla o en las voces de los asistentes virtuales.
  • Procesamiento del Lenguaje Natural (PLN): Aunque estrechamente relacionado, el PLN se centra en la comprensión e interpretación del lenguaje (tanto texto como voz transcrita) para extraer significados, intenciones, sentimientos o realizar tareas como la traducción o el resumen. La ASR proporciona la entrada de texto con la que suelen funcionar los sistemas de PNL. El modelado del lenguaje es un componente esencial tanto de la ASR como de la PNL.
  • Reconocimiento del orador: Se trata de identificar quién habla, no lo que se dice. Se utiliza para la autenticación biométrica o la diarización de hablantes (determinar distintos interlocutores en una conversación).

Aplicaciones reales

La tecnología de reconocimiento de voz está integrada en numerosas aplicaciones de diversos ámbitos:

  • Asistentes virtuales: Sistemas como Amazon Alexa, Google Assistant y Siri de Apple se basan en gran medida en ASR para entender los comandos y consultas del usuario.
  • Servicios de transcripción: Herramientas como Otter.ai transcriben automáticamente reuniones, entrevistas y conferencias, haciendo que el contenido de audio se pueda buscar y sea accesible.
  • Sistemas de control por voz: Muy utilizados en vehículos autónomos y coches modernos para el control manos libres de los ajustes de navegación, entretenimiento y climatización(IA en coches autoconducidos).
  • Software de dictado: Permite a profesionales de campos como la sanidad(AI in Healthcare) y el derecho dictar notas e informes directamente en documentos digitales.
  • Herramientas de accesibilidad: Proporcionan asistencia esencial a las personas con discapacidad, permitiendo la interacción con la tecnología a través de la voz. Proyectos como Common Voice de Mozilla pretenden mejorar la ASR para voces diversas.
  • Atención al cliente: Impulsa sistemas de respuesta de voz interactiva (IVR) y bots de voz en centros de llamadas para asistencia automatizada.

Retos y perspectivas

A pesar de los notables avances, los sistemas ASR siguen afrontando retos. La transcripción precisa del habla en entornos ruidosos, el tratamiento de diversos acentos y dialectos, el tratamiento de la superposición de hablantes en las conversaciones y la comprensión de significados matizados o el análisis de sentimientos siguen siendo áreas de investigación activas. Los avances futuros se centran en mejorar la robustez mediante técnicas avanzadas de aprendizaje profundo, explorar modelos multimodales que combinen audio con información visual (como la lectura de labios, relacionada con la visión por ordenador) y aprovechar técnicas como el aprendizaje autosupervisado para entrenar modelos en vastos conjuntos de datos sin etiquetar. Aunque Ultralytics se centra principalmente en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, los avances en campos de IA relacionados, como el reconocimiento del habla, contribuyen al ecosistema general de sistemas inteligentes. Puede explorar las opciones de entrenamiento y despliegue de modelos de visión en la documentación de Ultralytics y gestionar proyectos utilizando Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles