Yolo 비전 선전
선전
지금 참여하기
용어집

음성-텍스트 변환

음성-텍스트 변환 기술이 AI를 사용하여 음성 언어를 텍스트로 변환하여 음성 상호 작용, 텍스트 변환 및 접근성 도구를 지원하는 방법을 알아보세요.

흔히 자동 음성 인식(ASR)이라고도 하는 음성 텍스트 변환(STT)은 음성 언어를 음성 언어를 기계가 읽을 수 있는 텍스트로 변환하는 기술입니다. 이 기능은 사람과 사람 사이의 중요한 인터페이스 역할을 합니다. 통신과 컴퓨터 처리 사이의 중요한 인터페이스 역할을 하며, 시스템이 음성 데이터를 '듣고' 전사할 수 있게 해줍니다. 음성 인식은 기본 구성 요소 인공 지능(AI)의 기본 구성 요소인 STT는 복잡한 분석으로 이어지는 파이프라인의 첫 번째 단계로, 종종 다음을 통해 자연어 처리(NLP), 기계가 명령을 이해하고, 메모를 받아쓰거나, 실시간으로 자막을 생성할 수 있게 해줍니다.

음성-텍스트 변환 기술의 작동 방식

음파를 디지털 텍스트로 변환하는 과정에는 정교한 알고리즘 파이프라인이 필요합니다. 최신 시스템은 딥러닝(DL) 에 크게 의존하여 악센트, 속도, 배경 소음 등 사람 말의 뉘앙스를 처리합니다.

  1. 오디오 전처리: 시스템이 아날로그 사운드를 캡처하여 디지털화합니다. 그런 다음 특징 추출을 수행하여 오디오를 관리 가능한 별개의 세그먼트로 나누고, 종종 사운드를 스펙트로그램으로 시각화하거나 멜 주파수 세프스트럴 계수(MFCC)를 사용합니다.
  2. 음향 모델링: 음향 모델은 오디오 특징을 분석하여 음소를 식별합니다. 음소를 식별하기 위해 오디오 특징을 분석합니다. 이 단계에서는 대개 방대한 데이터 세트에서 학습된 대규모 데이터셋으로 학습된 신경망(NN)을 활용하여 를 사용하여 소리 신호를 음성 신호에 매핑합니다. 확률에 매핑합니다.
  3. 언어 모델링: A 언어 모델은 음소를 문맥화합니다. It 통계적 확률을 사용하여 가장 가능성이 높은 단어의 순서를 결정하고, 문법에 따라 동음이의어(예, "two" 대 "to")를 문법과 구문에 따라 수정합니다.
  4. 디코딩: 시스템은 음향 및 언어 모델 출력을 결합하여 최종 텍스트 문자열을 생성합니다.

최근의 발전은 기존의 숨겨진 마르코프 모델(HMM)에서 다음을 사용하는 엔드투엔드 아키텍처로 전환되었습니다. 전체 데이터 시퀀스를 동시에 처리하는 트랜스포머를 사용하여 동시에 처리하여 뛰어난 컨텍스트 인식을 구현합니다.

STT의 실제 적용 사례

음성 텍스트 변환은 현대 기술에서 어디에나 존재하며 다양한 분야에서 효율성과 접근성을 높이고 있습니다.

  • 지능형 가상 어시스턴트: 다음과 같은 소비자 AI 에이전트 Apple의 Siri와 Amazon Alexa는 STT를 활용하여 음성 명령을 즉시 구문 분석하여 명령을 즉시 구문 분석하여 알람 설정부터 스마트 홈 기기 제어까지 다양한 작업을 수행합니다. 이는 가상 어시스턴트가 가상 어시스턴트가 작업을 수행하기 위한 입력 계층 역할을 합니다.
  • 임상 문서: 의료 산업에서 의료 업계에서 의사들은 전문화된 STT 도구를 사용하여 환자 노트를 전자 건강 기록(EHR)에 직접 받아쓰기합니다. 다음과 같은 솔루션 뉘앙스 드래곤 메디컬은 관리 업무의 번거로움을 줄이고 관리 소모를 줄이고 상담 중에 환자 데이터를 정확하게 캡처할 수 있습니다.
  • 차량 제어: 최신 차량에는 STT가 통합되어 있어 운전자가 핸즈프리로 내비게이션과 엔터테인먼트 시스템을 핸즈프리로 제어할 수 있습니다. 자동차의 AI는 신뢰할 수 있는 음성 인터페이스를 통해 시각적 방해 요소를 줄여 안전을 우선시합니다.
  • 접근성 서비스: STT는 청각 장애인을 위한 실시간 자막을 지원하여 라이브 방송 및 영상 통화에 액세스할 수 있도록 지원합니다. 다음과 같은 플랫폼 YouTube는 자동화된 ASR을 사용하여 매일 수백만 개의 동영상에 자막을 생성합니다.

머신러닝 코드의 음성-텍스트 변환

Ultralytics 비전에 특화되어 있지만, STT는 멀티모달 애플리케이션에서 병렬 구성 요소로 사용되는 경우가 많습니다. 다음 Python 예제는 인기 있는 오픈 소스 라이브러리를 사용하는 방법을 보여줍니다. SpeechRecognition 를 클릭하여 오디오 파일을 변환합니다. 이는 오디오 자산을 나중에 분석할 수 있는 텍스트 데이터로 변환하는 표준 워크플로우를 나타냅니다. 분석할 수 있습니다.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports .wav, .flac, etc.)
with sr.AudioFile("audio_sample.wav") as source:
    # Record the audio data from the file
    audio_data = recognizer.record(source)

    # Recognize speech using Google Web Speech API
    try:
        text = recognizer.recognize_google(audio_data)
        print(f"Transcribed Text: {text}")
    except sr.UnknownValueError:
        print("Audio could not be understood")

STT와 관련 개념의 구분

AI 용어집에서 음성-텍스트 변환을 다른 용어와 구별하여 기술 환경의 어느 부분에 해당하는지 이해하면 도움이 됩니다. 기술 환경을 이해하는 데 도움이 됩니다.

  • 텍스트 음성 변환(TTS): STT의 반대 과정입니다. STT가 오디오를 텍스트로 변환하는 반면(입력), TTS는 서면 텍스트에서 사람과 유사한 음성을 합성합니다. 를 합성합니다(출력).
  • 자연어 이해(NLU): STT는 엄밀히 말해 전사 도구이며 콘텐츠를 '이해'하지 못합니다. NLU는 STT에서 텍스트 출력을 텍스트 출력을 가져와 단어 뒤에 숨겨진 의도, 감정, 의미를 분석합니다.
  • 음성 인식: 종종 STT와 같은 의미로 사용되는 음성 인식은 더 넓은 의미의 분야로, 화자 식별(화자 일기화)과 화자의 식별(화자 일기)과 그들의 말을 전사하는 것을 포함하는 광범위한 분야입니다. STT는 특히 텍스트 생성 측면을 말합니다.

미래: 다중 모드 통합

AI의 미래는 멀티 모달 학습에 있습니다, 모델이 시각, 청각, 텍스트 데이터를 동시에 처리하는 멀티모달 학습에 있습니다. 예를 들어 보안 시스템에서는 다음을 사용할 수 있습니다. 객체 감지 YOLO11 을 사용하여 사람을 식별하는 동시에 동시에 STT를 사용하여 언어적 반응을 기록할 수 있습니다.

앞으로 Ultralytics 다음과 같이 발전하고 있습니다. YOLO26를 개발 중이며, 이는 속도와 정확성의 한계를 뛰어넘는 것을 목표로 합니다. 이러한 모델이 발전함에 따라, 시각과 언어의 통합, 즉 언어의 통합(AI가 보는 것과 듣는 것 사이의 간극을 메우는 것)이 점점 더 매끄럽게 이루어질 것이며, 다음과 같은 프레임워크를 활용하여 다음과 같은 프레임워크를 활용하여 PyTorch 와 같은 프레임워크를 활용하여 포괄적인 지능형 에이전트를 구축할 수 있습니다. 최첨단 트랜스크립션에 관심이 있는 사용자는 다음과 같은 모델도 살펴볼 수 있습니다. ASR의 견고성에 대한 새로운 표준을 세운 OpenAI의 Whisper와 같은 모델도 살펴볼 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기