本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）

demacia · 发表于 2024-3-28 16:16:46

楼主请教下，唤醒词在整套流程是什么定位，我一直没搞明白，点assist入口后，或者点击语音直接说“打开客厅灯”，为什么HA里面会有唤醒词这个逻辑。

demacia · 发表于 2024-3-28 22:19:02

duanyudan123 发表于 2024-3-28 22:11
唤醒的实现就是某个麦克风一直处于待命状态。生成唤醒词的模型时候会排除掉所有不是这个词汇的对象。只保 ...

这个我明白，我想表达的是你的麦克风为什么能随时待命，还和HA关联，可能问的比较白痴

demacia · 发表于 2024-3-30 20:55:59

中文内容准确率不高的原因是因为tiny模型太小了，切换到medium 识别率非常准确，目前是在nvidia 显卡下跑的。拿了docker的书直接念的，每个字都很准。

2024-03-30 20:45:28,586 [INFO]Processing audio with duration 00:11.070
2024-03-30 20:45:30,362 [INFO]如果说主机时代大家比拼的是单个服务器物理性能 那么在云时代最为看重的则是 凭借虚拟化技术所构建的集群处理能力

分享下hugging-face的镜像网站，和原whisper的模型仓库。
https://hf-mirror.com/Systran试了好几个模型，tiny，medium，还下载了Systran/faster-distil-whisper-large-v2，输出给你中文语音直接翻译成英文，而且还很准。有显卡设备的话，以后感觉替换各种国产精灵，不用绕来绕去了。

demacia · 发表于 2024-3-30 20:57:07

本帖最后由 demacia 于 2024-3-30 21:19 编辑

感觉以后allinone的主机还得在配张显卡

大模型是叼
ha控制和语音版的本地chatgpt

1

demacia · 发表于 2024-3-30 23:40:08

silang521 发表于 2024-3-30 23:00
你怎么调用的显卡？

直接拉作者源码，本地宿主机有cudnn的环境，本地直接启

demacia · 发表于 2024-3-31 00:01:14

本帖最后由 demacia 于 2024-3-31 00:04 编辑

silang521 发表于 2024-3-30 23:51
麻烦能不能分享相关的代码？

python3 -m wyoming_faster_whisper \
        --uri 'tcp://0.0.0.0:10300' \
    --data-dir /data \
    --download-dir /data \
    --local_files_only=True \
    --language zh \
    --log-format='%(asctime)s [%(levelname)s]%(message)s' \
    --device=cuda \
    --model medium \
    --initial-prompt '以下是普通话的句子'

没改代码，只是提了个PR,让有模型缓存的不在请求网络拉取和检查模型，启动快点。
https://github.com/hass-demacia/ ... 85aa9569ab1e06fef11。有网络开代理的可以忽略这个pr。
正常逻辑，应该是基于nvdia的cudnn的基础镜像打一个镜像，应该也是可以的，只不过作者项目里面没有维护Dockerfile，就不强求docker了。

demacia · 发表于 2024-3-31 00:26:15

duanyudan123 发表于 2024-3-31 00:23
目前像样的GPU才是正解。要不老外一口一个cuda，听见就来气。等待有大佬拿老黄的集群训练个针对性的中文 ...

是的，容器版本只提供--gpu参数没用，必须还要指定whisper的参数--device。不然还是cpu跑，medium模型9400F，也比较慢。

demacia · 发表于 2024-3-31 17:47:39

ghcr.io/hass-demacia/wyoming_faster_whisper:dev

今天直接基于nvidia的基础镜像，打了cuda12的版本的镜像，个人自测没问题。有显卡的老板们可以尝尝。

（nvidia显卡驱动可能需要更新）

		自动登录	找回密码
密码			立即注册

[技术探讨] 本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）