☆ 3.8 Proceedings Paper

FCH-TTS: Fast, Controllable and High-quality Non-Autoregressive Text-to-Speech Synthesis

2022 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN) (2022)

Related references

Note: Only part of the references are listed.

Proceedings Paper Acoustics

DENOISPEECH: DENOISING TEXT TO SPEECH WITH FRAME-LEVEL NOISE MODELING

Chen Zhang et al.

Summary: This paper introduces DenoiSpeech, a TTS system that can synthesize clean speech for a speaker with noisy speech data by modeling fine-grained frame-level noise in real-world noisy speech. Experimental results show that DenoiSpeech outperforms previous methods by 0.31 and 0.66 MOS, respectively.

2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) (2021)

Add to Collection

Proceedings Paper Acoustics

LIGHTSPEECH: LIGHTWEIGHT AND FAST TEXT TO SPEECH WITH NEURAL ARCHITECTURE SEARCH

Renqian Luo et al.

Summary: This paper proposes LightSpeech, which leverages neural architecture search (NAS) to automatically design more lightweight and efficient TTS models based on FastSpeech. Experiments show that the model discovered by our method achieves 15x model compression ratio and 6.5x inference speedup on CPU.

2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) (2021)

Add to Collection

Proceedings Paper Acoustics

EMOTIONAL SPEECH SYNTHESIS WITH RICH AND GRANULARIZED CONTROL

Se-Yun Um et al.

2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (2020)

Add to Collection

Article Computer Science, Artificial Intelligence

Image quality assessment: From error visibility to structural similarity

Z Wang et al.

IEEE TRANSACTIONS ON IMAGE PROCESSING (2004)

Add to Collection

FCH-TTS: Fast, Controllable and High-quality Non-Autoregressive Text-to-Speech Synthesis

Related references

DENOISPEECH: DENOISING TEXT TO SPEECH WITH FRAME-LEVEL NOISE MODELING

LIGHTSPEECH: LIGHTWEIGHT AND FAST TEXT TO SPEECH WITH NEURAL ARCHITECTURE SEARCH

EMOTIONAL SPEECH SYNTHESIS WITH RICH AND GRANULARIZED CONTROL

Image quality assessment: From error visibility to structural similarity

Export Citation

Share Paper