Whisper – 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows]

Windows软件 2024-03-08 浏览量：

Whisper 是一个由 OpenAI 训练并开源的神经网络，在英语语音识别方面的稳健性和准确性接近人类水平。whisper.cpp 项目是将 Whisper 移植到 C/C++ 中，而今天介绍的 Const-me/Whisper 项目则是 whisper.cpp 在 Windows 上的实现，并增加了显卡的支持，使得速度大幅提升。@appinn

Whisper - 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows]

来自发现频道，@JoeCubber 同学推荐：https://meta.appinn.net/t/topic/41478

语音转录工具，类似青小蛙之前推的buzz，但是使用GPU速度更快

Buzz 是青小蛙在去年 11 月推荐的一个工具：Buzz – 开源、可离线的实时语音转文字工具，支持 Windows、macOS、Linux，它可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕。

下载 Whisper 模型

而 Const-me 的这个名为 Whisper 的项目，目前仅提供 Windows 版本，使用简单，需要先下载模型：

ggml-medium.bin

开发者推荐 ggml-medium.bin，因为一直在使用这个模型进行测试，1.53 GB 大小。

使用 Whisper

在 Model Path 里面选择你下载的模型，然后选择 GPU 就能进入软件了。

Whisper - 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows] 1

之后，就可以选择通过麦克风实时转换，或者使用音频文件比如 MP3 来转换为文字了：

Whisper - 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows] 2

青小蛙随便测试了一个极客湾的视频（仅下载了音频），效果如下：

Whisper - 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows] 3

准确度很高，基本上比较满意。

由于是在虚拟机中测试，显卡性能有限，所以时间不具有参考性。

不过，开发者的测试是在装有 GeForce 1080Ti GPU 的台式电脑上，中型模型，3 分 24 秒语音使用 PyTorch 和 CUDA 转录需要 45 秒，但使用这个和 DirectCompute 只需要 19 秒。而 @JoeCubber 同学测试的是 11:31 分钟的音频，耗时1分26秒完成。

当然，你需要有显卡。

实在是没想到，挖矿之后，显卡又有了用武之地。