YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

음성 인식

음성 인식 기술이 오디오를 텍스트로 변환하여 음성 비서, 텍스트 변환 등과 같은 AI 솔루션을 지원하는 방법을 알아보세요.

자동 음성 인식(ASR) 또는 컴퓨터 음성 인식이라고도 하는 음성 인식은 컴퓨터나 장치가 음성 언어를 식별하고 기계가 읽을 수 있는 텍스트로 변환할 수 있도록 하는 기술입니다. 이는 인간의 음성과 계산적 이해 사이의 간극을 메우는 현대 인공 지능(AI)의 기본 구성 요소 역할을 합니다. 핵심적으로 ASR은 음파를 분석하고, 정교한 알고리즘을 사용하여 처리하고, 텍스트 트랜스크립트를 생성하여 자연어 처리(NLP) 파이프라인의 중요한 부분을 형성합니다.

음성 인식 작동 방식

음성을 텍스트로 변환하는 프로세스는 일반적으로 머신 러닝(ML)으로 구동되는 여러 단계를 포함합니다. 먼저 시스템은 오디오를 캡처하고 작고 뚜렷한 사운드로 나눕니다. 특징 추출이라는 프로세스를 사용하여 오디오 파형은 모델이 분석할 수 있는 디지털 표현으로 변환됩니다.

다음으로 음향 모델(일반적으로 심층 신경망)은 이러한 특징을 분석하여 음소(언어의 기본적인 소리 단위)에 매핑합니다. 마지막으로 언어 모델은 음소 시퀀스를 가져와 통계적 지식을 사용하여 일관성 있는 단어와 문장으로 조립합니다. 이러한 시스템의 품질은 딥 러닝 및 대규모 데이터 세트의 출현으로 크게 향상되었으며, PyTorchTensorFlow와 같은 프레임워크가 개발에 중요한 역할을 했습니다.

실제 세계에서의 애플리케이션

음성 인식은 기술과의 일상적인 상호 작용을 형성하는 수많은 애플리케이션에 통합되어 있습니다.

  • 가상 어시스턴트: Apple의 SiriAmazon Alexa와 같은 서비스는 음성 명령을 처리하고, 질문에 답변하고, 작업을 수행하기 위해 ASR에 의존합니다.
  • 자동화된 트랜스크립션: ASR은 회의록, 비디오 자막, 의료 전문가를 위한 받아쓰기와 같은 오디오 및 비디오 콘텐츠의 서면 기록을 만드는 데 사용됩니다. 이 기술은 Google Cloud Speech-to-Text와 같은 서비스의 핵심 기능입니다.
  • 차량 내 제어 시스템(In-Car Control Systems): 최신 차량은 음성 인식을 사용하여 운전자가 내비게이션, 엔터테인먼트 및 실내 온도 조절을 핸즈프리로 제어할 수 있도록 하여 자동차 솔루션(automotive solutions)의 안전성을 향상시킵니다.

관련 AI 개념

ASR과 밀접하게 관련된 여러 용어를 구별하는 것이 유용합니다.

  • 음성-텍스트 변환(STT): 이 용어는 종종 ASR과 상호 교환적으로 사용됩니다. 그러나 STT는 직접적인 출력 또는 애플리케이션으로 생각할 수 있는 반면, ASR은 기본 기술 프로세스를 나타냅니다.
  • 텍스트-음성 변환(TTS): TTS는 ASR의 역방향 프로세스입니다. 서면 텍스트에서 인공 음성을 합성하여 오디오북 및 GPS 내비게이션의 음성 피드백과 같은 애플리케이션을 가능하게 합니다.
  • 자연어 이해(NLU): NLU는 ASR이 음성을 텍스트로 변환한 후의 다음 단계입니다. ASR은 전사 정확도에 중점을 두는 반면, NLU는 해당 텍스트 내의 의미, 의도 및 엔터티를 해석하는 데 관련됩니다.

과제 및 향후 방향

놀라운 발전에도 불구하고 ASR 시스템은 여전히 과제에 직면해 있습니다. 시끄러운 환경에서 음성을 정확하게 전사하고, 다양한 억양과 방언을 처리하고, 대화에서 화자 중복을 처리하고, 미묘한 의미 또는 감정 분석을 이해하는 것은 여전히 활발한 연구 분야입니다. OpenAI의 Whisper와 같은 선구적인 오픈 소스 프로젝트와 Kaldi와 같은 툴킷은 가능한 것의 경계를 계속 넓히고 있습니다.

향후 발전은 고급 딥러닝 기술을 통한 견고성 향상, 시각 정보와 오디오를 결합한 멀티 모달 모델 탐색(예: 립 리딩, 컴퓨터 비전 관련), 방대한 비 레이블 데이터 세트에서 모델을 훈련하기 위한 자율 지도 학습과 같은 기술 활용에 중점을 둘 것입니다. Ultralytics는 주로 객체 탐지이미지 분할과 같은 작업을 위한 Ultralytics YOLO와 같은 비전 AI 모델에 주력하고 있지만, 음성 인식과 같은 관련 AI 분야의 발전은 지능형 시스템의 전체 생태계에 기여합니다. Ultralytics 문서에서 비전 모델에 대한 모델 훈련배포 옵션을 살펴보고 Ultralytics HUB를 사용하여 프로젝트를 관리할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.