Glosario

De voz a texto

Descubre cómo la tecnología de voz a texto convierte el lenguaje hablado en texto utilizando IA, permitiendo interacciones de voz, transcripción y herramientas de accesibilidad.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La conversión del habla en texto (STT), también conocida como reconocimiento automático del habla (ASR), es una tecnología que permite a los ordenadores comprender y transcribir el lenguaje hablado humano en texto escrito. Constituye un puente crucial entre la interacción humana y el procesamiento digital dentro del campo más amplio de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM). Al convertir los flujos de audio en datos textuales, la STT permite a las máquinas procesar, analizar y responder a las entradas de voz, potenciando una amplia gama de aplicaciones.

Cómo funciona la conversión de discurso a texto

El núcleo de la STT consiste en sofisticados algoritmos que analizan las señales de audio. Este proceso suele incluir dos componentes principales:

  1. Modelo acústico: Este componente asigna segmentos de entrada de audio a unidades fonéticas, que son los sonidos básicos de una lengua. Aprende a distinguir entre diferentes sonidos a pesar de las variaciones en la pronunciación, los acentos y el ruido de fondo. Las técnicas avanzadas de modelado ac ústico suelen emplear arquitecturas de Aprendizaje Profundo (AD) como las Redes Neuronales Recurrentes (RNN) o los Transformadores.
  2. Modelo lingüístico: Este componente toma la secuencia de unidades fonéticas del modelo acústico y la convierte en palabras, frases y oraciones coherentes. Utiliza probabilidades estadísticas, a menudo aprendidas a partir de vastos conjuntos de datos de texto, para predecir la secuencia más probable de palabras, mejorando la precisión y fluidez de la transcripción. El modelado del lenguaje es un aspecto fundamental del Procesamiento del Lenguaje Natural (PLN).

El entrenamiento de estos modelos requiere grandes cantidades de datos de audio etiquetados(datos de entrenamiento) que representen diversos estilos de habla, idiomas y condiciones acústicas.

Aplicaciones en el mundo real

La tecnología STT forma parte integral de muchas aplicaciones modernas:

  • Asistentes virtuales: Habilitación de comandos de voz para dispositivos como teléfonos inteligentes y altavoces inteligentes(Siri, Alexa, Google Assistant). Consulta nuestro glosario de Asistentes Virtuales.
  • Servicios de transcripción: Convertir automáticamente reuniones, conferencias, entrevistas y mensajes de voz en texto utilizando herramientas como Otter.ai. Esto es especialmente vital en campos como el dictado médico y la documentación jurídica.
  • Sistemas de control por voz: Permiten manejar dispositivos con las manos libres, habituales en la IA para sistemas de automoción.
  • Herramientas de accesibilidad: Proporcionar subtítulos en tiempo real para personas con discapacidad auditiva, mejorando la accesibilidad de los medios de comunicación.
  • Análisis del centro de llamadas: Transcripción de llamadas de clientes para analizar sentimientos, identificar tendencias y mejorar la calidad del servicio.

Principales diferencias con las tecnologías relacionadas

Es importante distinguir STT de términos similares:

  • Texto a voz (TTS): Realiza la función contraria, convirtiendo el texto escrito en audio hablado.
  • Reconocimiento del hablante: Se centra en identificar quién habla basándose en las características de la voz, en lugar de transcribir lo que se dice. Los sistemas de reconocimiento del hablante se utilizan para la autenticación o la diarización (determinar quién habló cuándo).
  • Comprensión del Lenguaje Natural (NLU): Un subcampo de la PNL que va más allá de la transcripción para interpretar el significado, la intención y el sentimiento que hay detrás de las palabras habladas.

Retos y orientaciones futuras

A pesar de los importantes avances, la STT se enfrenta a retos como transcribir con precisión el habla con acentos marcados, ruido de fondo, hablantes solapados, y comprender el contexto o la ambigüedad lingüística. También es crucial mitigar los sesgos de la IA aprendidos a partir de datos de entrenamiento desequilibrados. La investigación en curso, a menudo destacada en plataformas como Google AI Blog y OpenAI Blog, se centra en mejorar la solidez, el rendimiento en tiempo real y las capacidades multilingües.

Voz a texto y Ultralytics

Aunque Ultralytics se centra principalmente en la visión por ordenador (CV) con Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, la conversión de voz a texto puede complementar las aplicaciones de IA visual. Por ejemplo, en un sistema de seguridad inteligente, STT podría analizar amenazas habladas captadas por micrófonos, trabajando junto con la detección de objetos YOLO para proporcionar una comprensión global de un evento, siguiendo potencialmente un flujo de trabajo de proyecto de visión por ordenador. Ultralytics HUB ofrece una plataforma para gestionar y desplegar modelos de IA, y a medida que la IA avanza hacia el Aprendizaje Multimodal utilizando modelos multimodales, la integración de STT con modelos de visión construidos utilizando marcos como PyTorch será cada vez más importante. Los conjuntos de herramientas de código abierto como Kaldi y proyectos como Mozilla DeepSpeech siguen haciendo avanzar el campo, contribuyendo a los recursos disponibles en el ecosistema más amplio de la IA, documentados en recursos como losUltralytics Docs.

Leer todo