Bark

一个开源的文本生成声音的模型，和传统的text to speech不同，它可以通过理解prompt的内容以及一些额外标注（语气、笑声、停顿等等），形成非常合乎语境的声音。GitHub主页有playground的waiting list登记以及在colab上试用的链接。另外看描述应该是可以部署在消费级电脑上，还没有具体尝试。

下面是我用演示prompt在colab里面生成的一段语音，可以注意笑声的部分，可以说非常可怕

prompt：

Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.

数据统计

暂无评论

暂无评论...

数据统计

相关导航

暂无评论