Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Speech Recognition

Explora cómo el reconocimiento de voz (ASR) convierte el lenguaje hablado en texto. Aprende sobre redes neuronales, aplicaciones de IA en el mundo real y Ultralytics YOLO26 multimodal.

El reconocimiento de voz, frecuentemente denominado técnicamente como Reconocimiento Automático de Voz (ASR, por sus siglas en inglés), es la capacidad específica que permite a un ordenador identificar, procesar y transcribir el lenguaje hablado a texto escrito. Esta tecnología actúa como un puente vital en la interacción humano-ordenador, permitiendo que los sistemas de Inteligencia Artificial (IA) acepten comandos de voz como entrada en lugar de depender únicamente de teclados o pantallas táctiles. Al analizar formas de onda de audio y compararlas con amplios conjuntos de datos lingüísticos, estos sistemas pueden interpretar diversos acentos, velocidades de habla variables y vocabularios complejos. Este proceso es un componente fundamental de los flujos de trabajo modernos de Procesamiento del Lenguaje Natural (PLN), transformando sonido no estructurado en datos estructurados legibles por máquina.

Link to this sectionCómo funciona el reconocimiento de voz#

La arquitectura detrás del reconocimiento de voz ha evolucionado desde la simple comparación de plantillas hasta sofisticados procesos impulsados por el Aprendizaje Profundo (DL). El proceso generalmente sigue una secuencia de pasos críticos. Primero, se captura y digitaliza el audio analógico original. El sistema realiza entonces una extracción de características para filtrar el ruido de fondo y aislar las características fonéticas, visualizando a menudo el audio como un espectrograma para mapear la intensidad de la frecuencia a lo largo del tiempo.

Una vez aisladas las características del audio, entra en juego un modelo acústico. Este modelo, a menudo construido utilizando una Red Neuronal (NN) como una Red Neuronal Recurrente (RNN) o un Transformer moderno, mapea las señales acústicas a fonemas: las unidades básicas de sonido. Finalmente, un modelo de lenguaje analiza la secuencia de fonemas para predecir las palabras y oraciones más probables. Este paso es crucial para distinguir entre homófonos (como "a", "ha" y "ah") basándose en el contexto. Los desarrolladores utilizan frameworks como PyTorch para entrenar estos modelos intensivos en datos.

Link to this sectionAplicaciones en el mundo real#

El reconocimiento de voz es ahora omnipresente, impulsando la eficiencia y la accesibilidad en muchos sectores.

  • Documentación sanitaria: En el campo médico, la IA en la sanidad permite a los médicos utilizar herramientas especializadas de proveedores como Nuance Communications para dictar notas clínicas directamente en los Registros Médicos Electrónicos (EHR). Esto reduce significativamente el agotamiento administrativo y mejora la precisión de los datos.
  • Interfaces de automoción: Los vehículos modernos integran control por voz para permitir a los conductores gestionar los sistemas de navegación y entretenimiento con las manos libres. La IA en automoción prioriza la seguridad al minimizar las distracciones visuales mediante estas interfaces vocales fiables.
  • Asistentes virtuales: Los agentes de consumo como Siri de Apple utilizan ASR para analizar comandos para tareas que van desde configurar temporizadores hasta controlar dispositivos de domótica, actuando como la capa de entrada principal para un Asistente Virtual.

Link to this sectionDistinción de términos relacionados#

Aunque a menudo se usan de forma casual para significar lo mismo, es importante diferenciar el reconocimiento de voz de conceptos relacionados en el glosario de IA.

  • Conversión de voz a texto (STT): STT se refiere específicamente a la función de salida (convertir audio en texto), mientras que el reconocimiento de voz abarca la metodología tecnológica más amplia de identificación del audio.
  • Comprensión del Lenguaje Natural (NLU): ASR convierte el sonido en texto, pero no "entiende" intrínsecamente el mensaje. NLU es el proceso posterior que interpreta la intención, el sentimiento y el significado detrás de las palabras transcritas.
  • Conversión de texto a voz (TTS): Esta es la operación inversa, donde el sistema sintetiza un habla artificial similar a la humana a partir de texto escrito.

Link to this sectionIntegración con la visión artificial#

La próxima frontera de los sistemas inteligentes es el Aprendizaje Multimodal, que combina datos auditivos y visuales. Por ejemplo, un robot de servicio podría utilizar YOLO26 para la detección de objetos en tiempo real para localizar a un usuario específico en una habitación, mientras utiliza simultáneamente el reconocimiento de voz para entender un comando como "tráeme la botella de agua". Esta convergencia crea agentes de IA integrales capaces tanto de ver como de oír. La Plataforma Ultralytics facilita la gestión de estos conjuntos de datos complejos y el entrenamiento de modelos robustos para tales aplicaciones multimodales.

El siguiente ejemplo en Python demuestra cómo utilizar la librería SpeechRecognition, una herramienta de envoltura popular, para transcribir un archivo de audio.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

El rendimiento del sistema se evalúa normalmente utilizando la métrica Tasa de Error de Palabra (WER), donde una puntuación más baja indica una mayor precisión. Para obtener más información sobre cómo funcionan estas tecnologías junto a los modelos de visión, explora nuestra guía sobre cómo conectar PLN y Visión por Computador.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático