explore
explore
Published on 2025-03-15 / 35 Visits
1
0

达摩极速语音转文字-Comfyui版

Comfyui是一个工作流创作平台,可以文字生成图片、文字生成视频、图片生成视频、视频转绘视频。

但是由于其工作流模式,可以用在很多地方。

Trea出来后,我就用AI生成了一个语音转文字节点。

ComfyUI也有基于whisper的语音转文字节点,单使用太慢,下载模型经常失败。

所以我使用达摩院的语音转文字模型做了一个节点

https://github.com/boxzooai/ComfyUI-FunASR.git

达摩院的语音转文字3分钟音频只需要2秒

比whisper 的16s快了8倍

达摩院的语音转文字主要是针对中文的,对于多语言的还是得使用whisper

对于whisper,我同时使用了faster-whisper(优化速度得whisper)创建了一个节点

https://github.com/boxzooai/ComfyUI-Faster-Whisper.git

faster-whisper的语音转文字3分钟需要14s


Comment