Featured image of post 颠覆性语音识别:单词级时间戳和说话人分离 | 开源日报 No.53

颠覆性语音识别:单词级时间戳和说话人分离 | 开源日报 No.53

WhisperX 是一款开源语音识别项目,可实现单词级时间戳和说话人分离。使用高效的 whisper large-v2 进行批量推理,达到70倍实时转录速度。faster-whisper 后端只需小于 8GB GPU 内存,而 wav2vec2 对齐确保准确的单词级时间戳。此外,它支持多说话人 ASR 和 VAD 预处理,提高精度和效率。让声音识别变得更简单而强大。