本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）

duanyudan123 · 发表于 2024-3-23 23:35:43

本帖最后由 duanyudan123 于 2024-5-25 16:50 编辑

费了九牛二虎之力把Whisper和openWakeWord装上去了，说实话体验很糟糕。主要这几点：
1.目前唤醒词都是基于英语的模型生成的所以没有除英文以外的唤醒词。可以自定义但是没有强有力的AI计算设备去生成中文的唤醒词，那个大户人家有A100这种东西。英文有免费地方可以生成但是在墙外边，等于不可用。唤醒词识别的还是可以的总体10分打8分
2.语音转写，单单是启动这个加载项就得好大一会，另外小的模型和大的模型比起来，小模型会快很多。讲话结束后1-3秒就会转写完毕。大模型时间很长大概7/8秒。转写的准确度来说都差不多，简直不能理解。可能训练模型的都是外国人的问题，毕竟他们能买到nVidia。像我测试的儿童房/大灯这些关键字几乎很难识别。打开和关闭这两字识别的到挺准确的。很明显的文化差异导致训练的问题。再一个就是算力的问题，可能有一个强大的计算终端使用更大的模型体验会好很多，但是没条件测试。总体10分打4分。
3.意图领会这一块，毫无领会可言除了官方配置进的意图。其他什么都回复你我不能理解。甚至连指引都不会有，简单粗暴。这点可以在助手打字框体会到。这也是需要强大的算力去支持，除非连接云端，谁家有那么大AI算力。总体10分打1分。因为全靠自己码自动化。
总结一下就是，想要有好的体验就需要更强大的算力，训练更精准的模型。那么问题来了不要钱的小爱/小艺/小度确实很香呢。语音还有很长一段路要走，语音这一段路走完了还有领会意图的能力摆在眼前。
我的测试环境都是在N100&16GB的X86下进行的。期待各位版主用更强大的算力设备进行测试。
4.可能我说的中文，不是标准普通话确实不能让模型理解。
下边来实测的视频和log图，大家看一下把。最后是小艺的，各位看官长长眼。
【homeassitant本地语音识别和唤醒词-哔哩哔哩】 https://b23.tv/iQfe83S
新的中文唤醒词插件可用{snowboy}ADD加载项直接下载就可以了。
项目地址：https://github.com/rhasspy/hassio-addons/tree/master/snowboy
生成自定义唤醒词：Snowboy 个人唤醒词 (jolanrensen.nl)。
录制三个短语会自动生成模型，将录音短语文件和模型文件下载，放到share\snowboy（此目录需要自己新建），然后去助手更换唤醒词就可以了。
提示：esphome有对应的项目Voice Assistant。需要硬件esp32配置越高越好，i2s麦克风，i2s功放。一个3w的喇叭。这样就完成了一个远程拾音平台。
地址：Voice Assistant — ESPHome
然后就可以叫它了比如我起名叫：小哀同学请看小哀同学表演：【中文唤醒词小哀同学-哔哩哔哩】 https://b23.tv/u2WhIxq
tiny-int8模型真的很快嗖的一下来不及刷新就转写好了，至于其它的。。。。。
更新：已加装RTX3060-12G锁挖矿版本
在小黄鱼购置了一张惠普的3060，1450米。综合来说3060跑本地AI最划算的一张卡，首先12GB的VRAM，能加载进去更多更大的模型。如果只跑语音模型2GB的显存就可以带来准确的识别，但是加载large-v3的模型需要至少4GB的现存，如果还需要本地对话代理的话可能12GB刚刚够。如果只跑语言模型建议选择1660系列6gb现存的刚刚好加载超大模型，但是显存不足以支撑其它模型。另外一张性价比较高的就是魔改的2080ti22GB显存的大概2300米，不过架构稍微有点老但是算力不弱，而且有22GB的现存可以加载更多更大模型。至于40系列的不推荐首先价格高，像4060ti虽然有更多流处理更大的带宽但是显存太小了只有8GB，没有性价比。40系列大显存的简直贵的离谱。不得不佩服黄仁勋的刀法精准。另外还有一些就是P100/P40/P4/T4/V100/RTX数字/泰坦/这些数据中心和工作站的GPU，都有超大显存，但是没有性价比因为架构比较老很有可能会不支持较新的驱动/cuda/cudnn。而且数据中心的没有风扇块头大功耗高，工作站系列的也是一样。肯定是那些被数据中心淘汰的洋垃圾更强大，但是软件支持寿命可能会稍微短一些。不考虑功耗和空间的还是可以使用的如p40和p100（但是小黄鱼价格在疯涨，现在没有性价比）。

我的服务目前实在公司的服务器跑的，是一台戴尔r720+e5-26系列+32GB内存+3060，基本都是一些洋垃圾。后期测试完成后会把3060拔下来，用oculink将GPU外挂到家庭的迷你主机上去。

配置流程：
1、清华大学镜像站下载Ubuntu22.4，并安装。
2、禁用nouveau
3、安装GCC和make

4、英伟达cuda，我是本地文件的安装方式，下载的cuda软件包会附带对应的显卡驱动，所以省去打显卡驱动的步骤（尽量先择此种方式，保证cuda和驱动的对应性）。
5、清华大学镜像站安装docker-ce
6、安装cudnn，安装完cuda和显卡驱动后直接apt install cudnn就可以。
7、安装英伟达容器工具包（在英伟达开发者网站可以找到）
9、配置docker compose的yaml文件
10、命令 docker compose up 跑起来
11、Wyoming Protocol 配置你的fast-whisper地址加端口号
12、更换助手的语音转文字选项
需要注意容器在下载模型的时候需要魔法网络，这个需要自己想办法解决！

测试结果：
large-v3模型
速度：两三句话基本1-2秒内转写完成，在使用助手中基本也就两三句话所以速度可以接受。
准确度：只要你不讲文言文和生僻字，很难出现错误。我尝试了古诗和白话。基本都可以接受。
功耗：只加载模型不进行推理计算大概10来w。进行推理计算的话大概50来w。（单纯gpu功耗，只是大概）

另外一个语音转文本的加载项vosk也可以使用速度很快，非常快。但是准确度很不好。但是可以进行文字匹配等高级操作。需要慢慢测试和修改配置才能有效果。

michael655 · 发表于 2024-3-24 01:38:22

学习学习一下！感谢分享！

ryanh7 · 发表于 2024-3-24 09:01:24

眼下本地化的成本肯定是比在线的高的。没有规模效应摊平研发训练成本、设备闲置成本，注定自己购买设备训练模型的成本更高，只适合技术类玩家。只要是小众圈子就没法计较价格的问题。除非以后出现了专用模型、专用芯片，才能降低使用成本吧。

ryanh7 · 发表于 2024-3-24 09:02:46

意图领会已经有大模型了，语音转写也应该问题不大

silang521 · 发表于 2024-3-28 15:10:59

请教一下楼主你用的哪个模型我用的tiny-int8 和 base-int8 识别的时候大部分都是繁体

duanyudan123 · 发表于 2024-3-28 15:55:00

silang521 发表于 2024-3-28 15:10
请教一下楼主你用的哪个模型我用的tiny-int8 和 base-int8 识别的时候大部分都是繁体 ...

small。不过看好多国外的人都说large-v3好用，我带不动也不知道支持中文不。

demacia · 发表于 2024-3-28 16:16:46

楼主请教下，唤醒词在整套流程是什么定位，我一直没搞明白，点assist入口后，或者点击语音直接说“打开客厅灯”，为什么HA里面会有唤醒词这个逻辑。

silang521 · 发表于 2024-3-28 17:48:15

duanyudan123 发表于 2024-3-28 15:55
small。不过看好多国外的人都说large-v3好用，我带不动也不知道支持中文不。 ...

我已经找到解决方案

silang521 · 发表于 2024-3-28 17:50:29

duanyudan123 发表于 2024-3-28 15:55
small。不过看好多国外的人都说large-v3好用，我带不动也不知道支持中文不。 ...

--initial-prompt 简体添加这个就是简体，还有就是你用的是数字麦克风还是咪头我用esp32 没有找到接咪头的gpio 难道是不支持咪头只能用数字麦克风

duanyudan123 · 发表于 2024-3-28 21:54:29

silang521 发表于 2024-3-28 17:50
--initial-prompt 简体添加这个就是简体，还有就是你用的是数字麦克风还是咪头我用esp32 没有找到接 ...

那必须用小模型啊反应快的多。数字的441几块钱一个。还有就是国内就没有训练个中文唤醒词嘛。喊外语唤醒我测试玩就仍一边去了。接受不了。

		自动登录	找回密码
密码			立即注册

[技术探讨] 本地语音实测来围观了，友情提示提前准备GPU卡(已加装3060）