Learning
토픽 143 / 172·고급 학습 기법

음성 합성 (TTS, Text-to-Speech)

음성 합성 (TTS, Text-to-Speech)

텍스트를 자연스러운 음성으로 변환하는 기술로, 딥러닝 기반 모델이 사람과 유사한 억양, 리듬, 감정을 표현

목적: 접근성(시각장애), 음성 인터페이스, 콘텐츠 제작, 다국어 지원

특징: End-to-End 학습, 자연스러운 운율, 화자 복제, 감정 표현

TTS 파이프라인

주요 모델

  • Tacotron 2: Encoder-Decoder + Attention, 자기회귀, 자연스러움
  • FastSpeech 2: 비자기회귀, Duration/Pitch/Energy 예측, 빠른 합성
  • VITS: End-to-End(음향모델+보코더 통합), VAE + Flow + GAN
  • VALL-E: 음성을 언어 모델링으로 접근, 3초 음성으로 화자 복제
  • Bark: 다국어, 감정, 비언어적 소리(웃음, 한숨) 표현

보코더

  • WaveNet: 자기회귀, 고품질이나 느림
  • WaveGlow: Flow 기반, 병렬 합성, 빠름
  • HiFi-GAN: GAN 기반, 고품질+실시간, 현재 주류

제로샷 TTS (Zero-Shot Voice Cloning): 짧은 참조 음성만으로 새로운 화자 복제

평가 지표

  • MOS (Mean Opinion Score): 사람 평가, 1-5점
  • PESQ/POLQA: 객관적 음질 평가
  • RTF (Real-Time Factor): 합성 속도, <1이면 실시간 가능

장점: 자연스러운 음성, 화자 맞춤화, 다국어, 접근성 향상

단점: 계산 비용, 딥페이크 악용, 감정 미묘함, 긴 문장 불안정

적용사례: AI 비서(Siri, Alexa), 오디오북, 네비게이션, ARS, 교육

기술요소: 멜 스펙트로그램, 어텐션, Vocoder, Duration Modeling

비교: 자기회귀(고품질/느림) vs 비자기회귀(빠름/약간 품질↓) vs E2E(통합/효율)

연관: STT, NLP, 음성인식, 딥러닝, 생성 모델