AI模型Txt 2 Audio

Bark

一个开源txt to audio模型,能够识别语言和语境,非常惊艳

标签:

一个开源的文本生成声音的模型,和传统的text to speech不同,它可以通过理解prompt的内容以及一些额外标注(语气、笑声、停顿等等),形成非常合乎语境的声音。GitHub主页有playground的waiting list登记以及在colab上试用的链接。另外看描述应该是可以部署在消费级电脑上,还没有具体尝试。

下面是我用演示prompt在colab里面生成的一段语音,可以注意笑声的部分,可以说非常可怕

prompt:

Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.

数据统计

相关导航

暂无评论

暂无评论...