토픽 143 / 172·고급 학습 기법

음성 합성 (TTS, Text-to-Speech)

텍스트를 자연스러운 음성으로 변환하는 기술로, 딥러닝 기반 모델이 사람과 유사한 억양, 리듬, 감정을 표현

목적: 접근성(시각장애), 음성 인터페이스, 콘텐츠 제작, 다국어 지원

특징: End-to-End 학습, 자연스러운 운율, 화자 복제, 감정 표현

TTS 파이프라인

주요 모델

보코더

제로샷 TTS (Zero-Shot Voice Cloning): 짧은 참조 음성만으로 새로운 화자 복제

평가 지표

장점: 자연스러운 음성, 화자 맞춤화, 다국어, 접근성 향상

단점: 계산 비용, 딥페이크 악용, 감정 미묘함, 긴 문장 불안정

적용사례: AI 비서(Siri, Alexa), 오디오북, 네비게이션, ARS, 교육

기술요소: 멜 스펙트로그램, 어텐션, Vocoder, Duration Modeling

비교: 자기회귀(고품질/느림) vs 비자기회귀(빠름/약간 품질↓) vs E2E(통합/효율)

연관: STT, NLP, 음성인식, 딥러닝, 생성 모델