F5-TTS可以通过一段声音克隆音色,然后朗读各种文字,创建界面十分麻烦,就使用Comffyui创建了一个工作流 工作流使用我自己写的达摩语音转文字节点,克隆使用F5-TTS节点,可以使用任意音频克隆声音。 F5-TTS再某些显卡上不会出声音,我修改了F5-TTS的代码,同时增加了多音字支持,节点为
Comfyui是一个工作流创作平台,可以文字生成图片、文字生成视频、图片生成视频、视频转绘视频。 但是由于其工作流模式,可以用在很多地方。 Trea出来后,我就用AI生成了一个语音转文字节点。 ComfyUI也有基于whisper的语音转文字节点,单使用太慢,下载模型经常失败。 所以我使用达摩院的语