Comfyui是一个工作流创作平台,可以文字生成图片、文字生成视频、图片生成视频、视频转绘视频。
但是由于其工作流模式,可以用在很多地方。
Trea出来后,我就用AI生成了一个语音转文字节点。
ComfyUI也有基于whisper的语音转文字节点,单使用太慢,下载模型经常失败。
所以我使用达摩院的语音转文字模型做了一个节点
https://github.com/boxzooai/ComfyUI-FunASR.git
达摩院的语音转文字3分钟音频只需要2秒
比whisper 的16s快了8倍
达摩院的语音转文字主要是针对中文的,对于多语言的还是得使用whisper
对于whisper,我同时使用了faster-whisper(优化速度得whisper)创建了一个节点
https://github.com/boxzooai/ComfyUI-Faster-Whisper.git
faster-whisper的语音转文字3分钟需要14s