一个开源的文本生成声音的模型,和传统的text to speech不同,它可以通过理解prompt的内容以及一些额外标注(语气、笑声、停顿等等),形成非常合乎语境的声音。GitHub主页有playground的waiting list登记以及在colab上试用的链接。另外看描述应该是可以部署在消费级电脑上,还没有具体尝试。
下面是我用演示prompt在colab里面生成的一段语音,可以注意笑声的部分,可以说非常可怕
prompt:
Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.
数据统计
相关导航
暂无评论...