『瀚思彼岸』» 智能家居技术论坛

 找回密码
 立即注册
查看: 1372|回复: 46

[技术探讨] 本地语音实测来围观了,友情提示提前准备GPU卡

[复制链接]

5

主题

46

帖子

281

积分

中级会员

Rank: 3Rank: 3

积分
281
金钱
235
HASS币
0
发表于 2024-3-23 23:35:43 | 显示全部楼层 |阅读模式
本帖最后由 duanyudan123 于 2024-3-31 01:20 编辑

费了九牛二虎之力把WhisperopenWakeWord装上去了,说实话体验很糟糕。主要这几点:
1.目前唤醒词都是基于英语的模型生成的所以没有除英文以外的唤醒词。可以自定义但是没有强有力的AI计算设备去生成中文的唤醒词,那个大户人家有A100这种东西。英文有免费地方可以生成但是在墙外边,等于不可用。唤醒词识别的还是可以的总体10分打8分
2.语音转写,单单是启动这个加载项就得好大一会,另外小的模型和大的模型比起来,小模型会快很多。讲话结束后1-3秒就会转写完毕。大模型时间很长大概7/8秒。转写的准确度来说都差不多,简直不能理解。可能训练模型的都是外国人的问题,毕竟他们能买到nVidia。像我测试的儿童房/大灯这些关键字几乎很难识别。打开和关闭这两字识别的到挺准确的。很明显的文化差异导致训练的问题。再一个就是算力的问题,可能有一个强大的计算终端使用更大的模型体验会好很多,但是没条件测试。总体10分打4分。
3.意图领会这一块,毫无领会可言除了官方配置进的意图。其他什么都回复你我不能理解。甚至连指引都不会有,简单粗暴。这点可以在助手打字框体会到。这也是需要强大的算力去支持,除非连接云端,谁家有那么大AI算力。总体10分打1分。因为全靠自己码自动化。
总结一下就是,想要有好的体验就需要更强大的算力,训练更精准的模型。那么问题来了不要钱的小爱/小艺/小度确实很香呢。语音还有很长一段路要走,语音这一段路走完了还有领会意图的能力摆在眼前。
我的测试环境都是在N100&16GB的X86下进行的。期待各位版主用更强大的算力设备进行测试。
4.可能我说的中文,不是标准普通话确实不能让模型理解。
下边来实测的视频和log图,大家看一下把。最后是小艺的,各位看官长长眼。
【homeassitant本地语音识别和唤醒词-哔哩哔哩】 https://b23.tv/iQfe83S
新的中文唤醒词插件可用{snowboy}ADD加载项直接下载就可以了。
项目地址:https://github.com/rhasspy/hassio-addons/tree/master/snowboy
生成自定义唤醒词:Snowboy 个人唤醒词 (jolanrensen.nl)
录制三个短语会自动生成模型,将录音短语文件和模型文件下载,放到share\snowboy(此目录需要自己新建),然后去助手更换唤醒词就可以了。
提示:esphome有对应的项目Voice Assistant。需要硬件esp32配置越高越好,i2s麦克风,i2s功放。一个3w的喇叭。这样就完成了一个远程拾音平台。
地址:Voice Assistant — ESPHome
然后就可以叫它了比如我起名叫:小哀同学请看小哀同学表演:【中文唤醒词小哀同学-哔哩哔哩】 https://b23.tv/u2WhIxq
tiny-int8模型真的很快嗖的一下来不及刷新就转写好了,至于其它的。。。。。


log

log

log

log
回复

使用道具 举报

0

主题

74

帖子

217

积分

中级会员

Rank: 3Rank: 3

积分
217
金钱
143
HASS币
0
发表于 2024-3-24 01:38:22 | 显示全部楼层
学习学习一下!感谢分享!
回复

使用道具 举报

50

主题

244

帖子

4300

积分

元老级技术达人

积分
4300
金钱
4046
HASS币
80
发表于 2024-3-24 09:01:24 | 显示全部楼层
眼下本地化的成本肯定是比在线的高的。没有规模效应摊平研发训练成本、设备闲置成本,注定自己购买设备训练模型的成本更高,只适合技术类玩家。只要是小众圈子就没法计较价格的问题。除非以后出现了专用模型、专用芯片,才能降低使用成本吧。
没意思,跑路了
回复

使用道具 举报

50

主题

244

帖子

4300

积分

元老级技术达人

积分
4300
金钱
4046
HASS币
80
发表于 2024-3-24 09:02:46 | 显示全部楼层
意图领会已经有大模型了,语音转写也应该问题不大
没意思,跑路了
回复

使用道具 举报

3

主题

162

帖子

1009

积分

金牌会员

Rank: 6Rank: 6

积分
1009
金钱
847
HASS币
0
发表于 2024-3-28 15:10:59 | 显示全部楼层
请教一下楼主 你用的哪个模型 我用的tiny-int8 和 base-int8 识别的时候大部分都是繁体
回复

使用道具 举报

5

主题

46

帖子

281

积分

中级会员

Rank: 3Rank: 3

积分
281
金钱
235
HASS币
0
 楼主| 发表于 2024-3-28 15:55:00 | 显示全部楼层
silang521 发表于 2024-3-28 15:10
请教一下楼主 你用的哪个模型 我用的tiny-int8 和 base-int8 识别的时候大部分都是繁体 ...

small。不过看好多国外的人都说large-v3好用,我带不动也不知道支持中文不。
回复

使用道具 举报

25

主题

223

帖子

1005

积分

金牌会员

大B头,背背机,舞池里的007。

Rank: 6Rank: 6

积分
1005
金钱
782
HASS币
0
发表于 2024-3-28 16:16:46 | 显示全部楼层
楼主请教下,唤醒词在整套流程是什么定位,我一直没搞明白,点assist入口后,或者点击语音直接说“打开客厅灯”,为什么HA里面会有唤醒词这个逻辑。
回复

使用道具 举报

3

主题

162

帖子

1009

积分

金牌会员

Rank: 6Rank: 6

积分
1009
金钱
847
HASS币
0
发表于 2024-3-28 17:48:15 | 显示全部楼层
duanyudan123 发表于 2024-3-28 15:55
small。不过看好多国外的人都说large-v3好用,我带不动也不知道支持中文不。 ...

我已经找到解决方案
回复

使用道具 举报

3

主题

162

帖子

1009

积分

金牌会员

Rank: 6Rank: 6

积分
1009
金钱
847
HASS币
0
发表于 2024-3-28 17:50:29 | 显示全部楼层
duanyudan123 发表于 2024-3-28 15:55
small。不过看好多国外的人都说large-v3好用,我带不动也不知道支持中文不。 ...

--initial-prompt  简体  添加这个就是简体,还有就是你用的是数字麦克风还是咪头  我用esp32 没有找到接咪头的gpio 难道是不支持咪头 只能用数字麦克风
回复

使用道具 举报

5

主题

46

帖子

281

积分

中级会员

Rank: 3Rank: 3

积分
281
金钱
235
HASS币
0
 楼主| 发表于 2024-3-28 21:54:29 | 显示全部楼层
silang521 发表于 2024-3-28 17:50
--initial-prompt  简体  添加这个就是简体,还有就是你用的是数字麦克风还是咪头  我用esp32 没有找到接 ...

那必须用小模型啊反应快的多。数字的441几块钱一个。还有就是国内就没有训练个中文唤醒词嘛。喊外语唤醒我测试玩就仍一边去了。接受不了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian

GMT+8, 2024-4-27 17:14 , Processed in 0.066143 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表