Seed-TTS——一款由字节跳动推出的先进语音生成模型,其具备多功能的特性,能够生成逼近人类自然语音的音频。该模型支持情感控制与高表现力的语音上下文学习,使得语音更加生动和富有表现力。 其功能包括生成高度自然的语音、进行语音上下文学习、控制语音情感和属性,以及提供自蒸馏和强化学习方法,以增强模型的稳健性和相似性。此外,Seed-TTS产品支持多种语音属性控制,拥有高质量的语音生成和编辑能力,甚至还包括非自回归的变体。 该产品可在网页浏览器上在线访问,完全免费。用户反馈显示,Seed-TTS在语音自然度和相似性方面表现出色,情感和语音属性控制功能非常强大,是一款值得推荐的高质量多功能语音生成模型。

网站地址:https://bytedancespeech.github.io/seedtts_tech_report