F5-TTS可以通过一段声音克隆音色,然后朗读各种文字,创建界面十分麻烦,就使用Comffyui创建了一个工作流 工作流使用我自己写的达摩语音转文字节点,克隆使用F5-TTS节点,可以使用任意音频克隆声音。 F5-TTS再某些显卡上不会出声音,我修改了F5-TTS的代码,同时增加了多音字支持,节点为
Comfyui是一个工作流创作平台,可以文字生成图片、文字生成视频、图片生成视频、视频转绘视频。 但是由于其工作流模式,可以用在很多地方。 Trea出来后,我就用AI生成了一个语音转文字节点。 ComfyUI也有基于whisper的语音转文字节点,单使用太慢,下载模型经常失败。 所以我使用达摩院的语
文案提取器在自媒体创作中有很大作用。 很多时候,看到别人视频讲解的好,想要把内容提取下来做笔记,但是这是视频,音频, 要做笔记,只能花时间一个字一个字写下来,很费劲。 或者在网上找一个文案提取器,但是找过了的不是视频大小有限制,就是输出的文案不能断句。 基本上不能用。 下面这款音视频文案提取工具,完