Learning
토픽 85 / 172·컴퓨터 비전과 NLP

음성 인식 (Speech Recognition)

음성 인식 (Speech Recognition)

음성 신호를 텍스트로 변환하는 기술로, 음향 모델과 언어 모델을 결합하여 정확한 전사를 수행하며 음성 비서·자막 생성 등에 활용

특징: 시계열 데이터 처리, 다국어 지원, 실시간 처리 가능

방법

  • HMM-GMM(전통): 은닉마르코프모델+가우시안혼합모델, 통계적 방법
  • End-to-End: RNN·CTC·Attention 기반, 단일 모델로 음성→텍스트 직접 변환
  • Transformer: Whisper 등, 병렬처리·대규모학습, 현재 SOTA

대표모델: Whisper(OpenAI, 다국어·680K시간학습), Wav2Vec2(Meta, 자기지도학습), DeepSpeech(Mozilla, CTC기반)

적용사례: 음성비서(Siri·Alexa), 자막생성, 회의록작성, 콜센터

비교: HMM-GMM(전통·모듈별) vs End-to-End(단일모델·간결) vs Whisper(대규모·다국어)

연관: NLP, Transformer, Whisper, 시계열