YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Speech-to-Text

음성-텍스트 변환(STT)이 오디오를 데이터로 어떻게 변환하는지 알아보십시오. ASR, NLP 통합, 그리고 Ultralytics YOLO26 및 Ultralytics Platform을 사용하는 멀티모달 AI에 대해 확인해 보십시오.

음성 인식(Speech-to-Text, STT)은 흔히 자동 음성 인식(Automatic Speech Recognition, ASR)으로 불리며, 구어(spoken language)를 텍스트로 변환하는 연산 처리 과정입니다. 이 기술은 인간의 의사소통과 디지털 시스템을 연결하는 중요한 가교 역할을 하며, 기계가 언어 정보를 구조화된 데이터로 처리, 분석 및 저장할 수 있게 합니다. 핵심적으로 STT는 고급 딥러닝(DL) 알고리즘을 사용하여 오디오 파형을 분석하고, 음성 패턴을 식별하여 일관된 문장으로 재구성하며, 더 넓은 자연어 처리(NLP) 파이프라인의 입력 계층 역할을 수행합니다.

Link to this section전사(Transcription)의 기제#

소리를 텍스트로 변환하는 과정은 여러 복잡한 단계를 포함합니다. 초기 단계에서 시스템은 오디오를 캡처하고 데이터 클리닝을 수행하여 배경 소음을 제거합니다. 정제된 오디오는 특징 추출 과정을 거치는데, 여기에서 원시 음파는 스펙트로그램 또는 음성의 음향적 특징을 나타내는 멜-주파수 켑스트럼 계수(MFCCs)로 변환됩니다.

현대적인 STT 시스템은 순환 신경망(RNN) 또는 고효율 Transformer 모델과 같은 아키텍처를 사용하여 이러한 음향 특징을 음소(소리의 기본 단위)로, 최종적으로 단어로 매핑합니다. OpenAI Whisper와 같은 혁신적인 사례는 방대하고 다양한 데이터셋을 통한 학습이 전사 정확도를 평가하는 핵심 지표인 단어 오류율(WER)을 얼마나 크게 낮출 수 있는지 입증했습니다.

Link to this section실제 애플리케이션 사례#

음성 인식 기술은 핸즈프리 조작과 빠른 데이터 입력을 가능하게 하여 다양한 산업 전반에서 효율성을 높이는 보편적인 기술이 되었습니다.

  • 임상 문서화: 의료 분야에서는 의사들이 Nuance Dragon Medical과 같은 전문 도구를 활용하여 환자 기록을 전자 건강 기록(EHR)에 직접 받아쓰기합니다. 이러한 의료 AI의 통합은 행정 부담을 획기적으로 줄여 의사가 환자 진료에 더 집중할 수 있도록 합니다.
  • 자동차 인터페이스: 현대적인 차량은 STT를 채택하여 운전자가 음성 명령으로 내비게이션 및 엔터테인먼트 시스템을 제어할 수 있게 합니다. 자동차 AI를 구동하는 솔루션은 시각적 주의 분산을 최소화하여 운전자가 전방을 주시하면서 차량의 디지털 시스템과 상호 작용할 수 있도록 함으로써 안전을 최우선으로 합니다.
  • 고객 서비스 분석: 기업은 Google Cloud Speech-to-Text와 같은 서비스를 사용하여 매일 수천 건의 고객 지원 통화를 전사합니다. 이러한 전사본은 감정을 추출하고 서비스 품질을 개선하는 데 분석됩니다.

Link to this section관련 개념 구분#

AI 환경을 완전히 파악하기 위해 음성 인식을 다른 언어 처리 용어와 구분하는 것이 도움이 됩니다.

  • 음성 합성(TTS): 이는 역방향 작업입니다. STT는 오디오 입력을 받아 텍스트를 생성하는 반면, TTS는 텍스트 입력을 받아 인공적인 인간의 음성을 합성합니다.
  • 자연어 이해(NLU): STT는 엄격히 말해 전사 도구이며, 말한 내용은 캡처하지만 의미하는 바를 반드시 포착하는 것은 아닙니다. NLU는 전사된 텍스트를 분석하여 사용자의 의도와 의미론적 의미를 파악하는 후속 처리 과정입니다.
  • 음성 인식(Speech Recognition): 흔히 혼용되지만, 음성 인식은 화자 식별(누가 말하고 있는지 파악)을 포함할 수 있는 더 광범위한 포괄 용어인 반면, STT는 언어적 내용에 구체적으로 초점을 맞춥니다.

Link to this section비전 AI와 멀티모달 통합#

지능형 에이전트의 미래는 시스템이 시각 및 청각 데이터를 동시에 처리하는 멀티모달 학습에 있습니다. 예를 들어, 서비스 로봇은 Ultralytics의 최신 최첨단 모델인 **YOLO26**을 사용하여 실시간 객체 검출으로 사용자를 찾고, 동시에 STT를 사용하여 "저 병 좀 가져다줘"와 같은 명령을 들을 수 있습니다.

이러한 융합을 통해 보고 들을 수 있는 포괄적인 AI 에이전트를 생성할 수 있습니다. **Ultralytics Platform**은 이러한 복잡한 워크플로우의 관리를 용이하게 하며, 멀티모달 애플리케이션의 시각적 중추 역할을 할 수 있는 모델의 어노테이션, 학습 및 배포를 지원합니다.

Link to this sectionPython 구현 예시#

The following example demonstrates a basic implementation using the SpeechRecognition library, a popular Python tool that interfaces with various ASR engines (like CMU Sphinx) to transcribe audio files.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, FLAC, etc.)
# In a real workflow, this audio might be triggered by a YOLO26 detection event
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe audio using the Google Web Speech API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio.")

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.