本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）

duanyudan123 · 发表于 2024-3-29 14:59:23

silang521 发表于 2024-3-29 07:29
也就是说普通的6027咪头麦克风是不能用的对吧，我有一堆6027就是没买数字的 ...

唤醒的功能是不区分麦克风类型的呢。esp32需要配置模数转换才能用驻极体麦克风吧。内部好像有模数转换器，你可以试一下。

郑小贤 · 发表于 2024-3-29 15:00:53

我也是x86主机，实测了voice_assistant，对硬件要求较高，base和tiny识别出来的是繁体中文，small勉强能用，其他的识别时长就太长了；对对话理解不到位，比如，打开客厅所有的灯。它只会找“客厅所有的灯”这个实体，而不是客厅区域内的light实体。还需要让子弹飞一会。

duanyudan123 · 发表于 2024-3-29 15:56:35

郑小贤发表于 2024-3-29 15:00
我也是x86主机，实测了voice_assistant，对硬件要求较高，base和tiny识别出来的是繁体中文，small勉强能用 ...

--initial-prompt 简体添加这个就是简体
别人测试的小模型简体参数。你可以试试。
现在确实不太好用呢，主要是水土不服。跟老外的语言逻辑不太一样。慢慢会好起来的。耐心等待

DDDear · 发表于 2024-3-29 16:02:28

https://github.com/k2-fsa
这个中文离线识别非常快，而且有python接口，大佬看看可以接入吗？

silang521 · 发表于 2024-3-30 09:43:39

duanyudan123 发表于 2024-3-29 14:59
唤醒的功能是不区分麦克风类型的呢。esp32需要配置模数转换才能用驻极体麦克风吧。内部好像有模数转换器 ...

请教一下，你用的什么型号的功放，我用pam8406喇叭还是有杂音，很严重难道要用98357a才行？还是有什么设置？

demacia · 发表于 2024-3-30 20:55:59

中文内容准确率不高的原因是因为tiny模型太小了，切换到medium 识别率非常准确，目前是在nvidia 显卡下跑的。拿了docker的书直接念的，每个字都很准。

2024-03-30 20:45:28,586 [INFO]Processing audio with duration 00:11.070
2024-03-30 20:45:30,362 [INFO]如果说主机时代大家比拼的是单个服务器物理性能 那么在云时代最为看重的则是 凭借虚拟化技术所构建的集群处理能力

分享下hugging-face的镜像网站，和原whisper的模型仓库。
https://hf-mirror.com/Systran试了好几个模型，tiny，medium，还下载了Systran/faster-distil-whisper-large-v2，输出给你中文语音直接翻译成英文，而且还很准。有显卡设备的话，以后感觉替换各种国产精灵，不用绕来绕去了。

demacia · 发表于 2024-3-30 20:57:07

本帖最后由 demacia 于 2024-3-30 21:19 编辑

感觉以后allinone的主机还得在配张显卡

大模型是叼
ha控制和语音版的本地chatgpt

1

silang521 · 发表于 2024-3-30 23:00:00

demacia 发表于 2024-3-30 20:55
中文内容准确率不高的原因是因为tiny模型太小了，切换到medium 识别率非常准确，目前是在nvidia 显卡下跑的 ...

你怎么调用的显卡？

demacia · 发表于 2024-3-30 23:40:08

silang521 发表于 2024-3-30 23:00
你怎么调用的显卡？

直接拉作者源码，本地宿主机有cudnn的环境，本地直接启

silang521 · 发表于 2024-3-30 23:51:14

demacia 发表于 2024-3-30 23:40
直接拉作者源码，本地宿主机有cudnn的环境，本地直接启

麻烦能不能分享相关的代码？

		自动登录	找回密码
密码			立即注册

[技术探讨] 本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）