找回密码
 立即注册
查看: 3075|回复: 10

[技术探讨] 本地语音助手的体验,总体堪用了

[复制链接]

27

主题

95

回帖

693

积分

高级会员

积分
693
金钱
571
HASS币
0
发表于 2024-3-9 12:53:25 | 显示全部楼层 |阅读模式
X86小主机装的官方OS,就装了HA,省的有BUG。买了个自带DAC和麦克风的USB小音响,插上机器就能识别,X86就这点好,比较少莫名其妙的问题。然后装了whisper paper openwakeword assist microphoe, 配置好后启用。语音唤醒正常,外放正常。但是中文对话没有反应。把whisper和paper更换成homeassistant cloud,可以正常语音控制HA里的配件了,比方说开灯关灯。但是问她问题,比方说天气怎样?还是回复我不能理解你的问题。跟谷歌的中文语音差的挺远的。
回复

使用道具 举报

170

主题

2548

回帖

8492

积分

元老级技术达人

积分
8492
金钱
5769
HASS币
30
发表于 2024-3-9 13:57:49 | 显示全部楼层
ha的语音服务,还不完善,去年才刚起步,还在完善
回复

使用道具 举报

15

主题

666

回帖

3553

积分

论坛元老

HomeAssistant

积分
3553
金钱
2867
HASS币
20
发表于 2024-3-9 14:06:15 | 显示全部楼层
homeassistant cloud没用过,也是本地识别吗?
回复

使用道具 举报

29

主题

1399

回帖

6414

积分

元老级技术达人

积分
6414
金钱
4961
HASS币
100
发表于 2024-3-20 17:39:08 | 显示全部楼层
whisper 是本地的stt
piper 是本地tts
openwakeword 是做唤醒
可以看到这里并没有大脑,ha本身的assistant只提供了控制的基础意图,你需要有openai或者其他的大模型才能做到对话
回复

使用道具 举报

27

主题

95

回帖

693

积分

高级会员

积分
693
金钱
571
HASS币
0
 楼主| 发表于 2024-3-21 09:42:01 | 显示全部楼层
25989406 发表于 2024-3-20 17:39
whisper 是本地的stt
piper 是本地tts
openwakeword 是做唤醒

whisper和piper的中文根本没法用,后边我换成微软的auze了,识别不错
回复

使用道具 举报

29

主题

1399

回帖

6414

积分

元老级技术达人

积分
6414
金钱
4961
HASS币
100
发表于 2024-3-21 11:38:55 | 显示全部楼层
wjh2972406 发表于 2024-3-21 09:42
whisper和piper的中文根本没法用,后边我换成微软的auze了,识别不错

whisper识别不准可以上强度 换模型,我用下来挺好的没什么问题。
piper tts的问题是他没有断句,体验不好,凑活用的状态
回复

使用道具 举报

27

主题

95

回帖

693

积分

高级会员

积分
693
金钱
571
HASS币
0
 楼主| 发表于 2024-3-21 11:50:34 | 显示全部楼层
本帖最后由 wjh2972406 于 2024-3-21 11:53 编辑
25989406 发表于 2024-3-21 11:38
whisper识别不准可以上强度 换模型,我用下来挺好的没什么问题。
piper tts的问题是他没有断句,体验不好 ...

我的体验是太难受了,换大模型,太卡太延迟了。我的HA还是装在处理器是I7,内存是8G的X86小主机上,而且小主机就是单独装HA的,因为刚好闲置了个小主机。用微软的模型,就很流畅,识别也很OK。但是总体来说,这段时间折腾的外边的语音助手,中文识别这块,谷歌的最舒服,就是太依赖网络
回复

使用道具 举报

18

主题

317

回帖

2728

积分

金牌会员

积分
2728
金钱
2393
HASS币
20
发表于 2024-3-21 11:55:59 | 显示全部楼层
哪位大神用esp32做过拾音?https://www.esphome.io/components/voice_assistant
回复

使用道具 举报

29

主题

1399

回帖

6414

积分

元老级技术达人

积分
6414
金钱
4961
HASS币
100
发表于 2024-3-21 12:00:03 | 显示全部楼层
wjh2972406 发表于 2024-3-21 11:50
我的体验是太难受了,换大模型,太卡太延迟了。我的HA还是装在处理器是I7,内存是8G的X86小主机上,而且小 ...

whisper我用的是small那个模型,本地响应很快,基本符合我的需求。
我只留了一个通义千问调用网络api,整体响应在2s上下。
唯一变数是 输出语音用:piper/edge的tts(延时+2秒)
回复

使用道具 举报

22

主题

648

回帖

3042

积分

论坛元老

积分
3042
金钱
2372
HASS币
0
发表于 2024-3-21 14:09:37 | 显示全部楼层
25989406 发表于 2024-3-21 12:00
whisper我用的是small那个模型,本地响应很快,基本符合我的需求。
我只留了一个通义千问调用网络api,整 ...

大佬可否开个贴讲述下配置要点?比如拾音怎么解决的?本地识别的容器配置等
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian ( 晋ICP备17001384号-1 )

GMT+8, 2025-5-15 04:56 , Processed in 0.070125 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表