『瀚思彼岸』» 智能家居技术论坛

标题: 【无限期待】HA的新生命马上就要来临:2023.5.0版本!语音! [打印本页]

作者: XCray    时间: 2023-4-28 22:12
标题: 【无限期待】HA的新生命马上就要来临:2023.5.0版本!语音!
本帖最后由 XCray 于 2023-5-11 08:53 编辑

早在去年年末,HA就宣布2023年为HA的语音之年,由于我个人冬天沉迷于雪场,没有认真跟进,对这个激动人心的新特性仅仅是简单了解了一下,没有做任何实际测试。不过看论坛里讨论这事儿的帖子也确实很少,看来大家都在等。

现在,一个重大改进版本马上就要降临了!昨天,官网发表了《语音之年:第二篇章》,非常推荐大家仔细看看!

简单来说,语音之年的第一篇章集中在“意图 intents – 用户想干啥 what the user wants to do”方面,常用的智能家居指令和响应已经支持简体中文(感谢al-one的贡献!)。

第二篇章,带来了最利于隐私保护的、本地的TTS引擎(语音合成)和STT引擎(语音识别)!也都支持中文!

语音势必牵涉到拾取和播放语音的硬件设备,所以ESPHome已经走在前面,在2023.4.0版本已经开始支持麦克风(播放能力HA早就有了)。

本地语音识别和语音合成是以加载项的形式提供的,和ESPHome的麦克风特性一样,需要下个月的HA版本,即2023.5.0才能使用。正式版还没有发布,但开发版早就可以使用了(我自己也还没开始用

哪位懂硬件的朋友,说说esp32接麦克风怎么玩?什么类型的麦克风最好用?

我看官方是拿M5Stack ATOM Echo进行开发测试的,所用的麦克风型号是SPM1423 PDM。ATOM Echo某宝售价99一个,好像贵了一点点

~~~~~~~~~~~~
确实还有很长的路要走

正式版出来了,问题还是挺明显的,STT还没试,TTS属实拉跨:

- 响应速度太差,官方宣传树莓派上好用,我用群晖虚拟机跑,给2个CPU+2G内存,延迟依然很大,甚至消息内容比较长时比云上的edge还差;不过短内容时延迟确实比edge小得多(1.5秒vs4秒);
- 音质确实很差,尤其是中英文混合,英文单词都不知道它是咋念的;
- 在语音助手中piper设置为中文始终不可用,通过服务调用可以,就是语音助手里只能用英文;

但愿以后能好用起来。

作者: muxiachuixue    时间: 2023-4-28 22:41
感觉使用体验可能不如小爱和siri。麦克风系统(含软件算法)的拾音能力也很重要,一是说话很小声的时候也能准确识别,二是周围比较嘈杂的时候也可以识别,三是说的不太清楚的时候能够正确理解,这三点有一点不能满足,可能体验就很差了;再就是固定位置的麦克风肯定不如移动终端的体验好,毕竟智能手表/手环和手机是随声带着的,走到哪里都可以语音控制。
作者: XCray    时间: 2023-4-28 23:55
价格不一样不说,联网和本地的差别更值得细品
作者: kjjuhfv    时间: 2023-4-29 00:22
要想达到比较理想的使用程度至少也得半年吧
作者: wodepiqi    时间: 2023-4-29 00:44
几块钱的线性麦克风自己画电路板,多个麦克风拾音就能行了mems硅麦也就几块钱一个
作者: twfjcn    时间: 2023-4-29 02:01
语音联网都很傻,本地就更智障了
作者: XCray    时间: 2023-4-29 07:34
twfjcn 发表于 2023-4-29 02:01
语音联网都很傻,本地就更智障了

你用过?展开说说?
作者: xieahui    时间: 2023-4-29 10:04
XCray 发表于 2023-4-29 07:34
你用过?展开说说?

联网的都很傻 本地的就更傻了
不是很期待,
作者: cjnt007    时间: 2023-4-29 10:13
charGPT这么火,干脆把它集成到HA,现在应该没有哪家智能程度可以超过它吧
展望下,以后配置个自动化也可以用语音来设置,不需要自己趴电脑前写yaml
作者: bugensui    时间: 2023-4-29 10:54
cjnt007 发表于 2023-4-29 10:13
charGPT这么火,干脆把它集成到HA,现在应该没有哪家智能程度可以超过它吧
展望下,以后配置个自动化也可以 ...

小爱和siri都很多年了。ha搞自己的语音,肯定也需要1-2年的完善,主要是远场语音,嘈杂环境的识别,需要技术积累
作者: twfjcn    时间: 2023-4-29 12:08
XCray 发表于 2023-4-29 07:34
你用过?展开说说?

不是有很多单片机可以本地学习和本地数据库的嘛,理想环境可以的,但是中华文化博大精深,环境噪声方位等因素影响,似乎就没那么好用了,联网大数据都做得一般般,本地语音不太期待。
作者: 2718399405    时间: 2023-4-29 13:36
我现在都是直接用小爱获取的语音然后传输给HA,NR或者tasker , 以前智能音箱还没出现以前,曾经买过讯飞科大的语音识别模块,远场识别没这么简单,一般效果都不好,
作者: iamhyde    时间: 2023-4-29 15:01
我看esphome支持I2S的麦克风,买了一个用ESP32接入试试,顺便把HA自带的助手也改成中文了,看看基本的打开灯之类的语音能不能用
作者: XCray    时间: 2023-4-29 16:42
twfjcn 发表于 2023-4-29 12:08
不是有很多单片机可以本地学习和本地数据库的嘛,理想环境可以的,但是中华文化博大精深,环境噪声方位等 ...

智能家居场景需要识别的指令/语句是很有限的,对处理能力的要求应该并不高,相对云端带来的高时延和隐私风险,本地化应该是一个更好而且现实的选择。

另一个方向,本地语音合成在音色方面不如云端也是可以接受的,同样时延的缩短也是一个很大的好处。
作者: jjcs    时间: 2023-4-29 19:16
本地语音要那么多语句识别干嘛,让本地的做成云端那么多,怎么可能?在我看来,只要识别率高,不需要唤醒词,能满足,开灯关灯就行了,至于要其他功能,就让云端来搞。
作者: muxiachuixue    时间: 2023-4-29 21:49
XCray 发表于 2023-4-28 23:55
价格不一样不说,联网和本地的差别更值得细品

普通小爱低于99也能买到了,homepod确实贵一点。之前有个玩家搞过本地语音,结果识别错误率太高,必须要一板一眼的说出指令才行,稳定性不尽理想。比如一个开灯指令,不同的人可能不同的说法,有的人还带点口音,不联网的话,程序很难稳定、准确判断你说的话。如果忽略价格因素,光从体验上来说,homepod体验是最好的,因为你可以一口气说完一个指令,比如一口气说完“hey siri打开主卧灯”,从你张开嘴巴到灯打开,实际就1-2秒。而小爱和本地语音目前还做不到同时接收唤醒词+指令,你要先说一句唤醒词唤醒设备,再说一句指令才行,这样至少也要3秒才能完成操作,所以其实未必比联网的siri更快。
作者: muxiachuixue    时间: 2023-4-29 21:55
jjcs 发表于 2023-4-29 19:16
本地语音要那么多语句识别干嘛,让本地的做成云端那么多,怎么可能?在我看来,只要识别率高,不需要唤醒词 ...

不需要唤醒词,你会发现误触率高的离谱,我的行车记录仪就是本地语音,也不需要唤醒词,快确实是快,但是总是莫名其妙被误触。智能家居最最重要的就是稳定,不能频繁出幺蛾子,否则很快你就不想用了。本地语音想做到稳定好用,还有很长的路要走
作者: XCray    时间: 2023-4-29 22:06
好像大家都在凭自己的想象发表看法 有几个人真正用过HA 2023.5.0版本?或者仔细了解过HA新加入的语音功能?
作者: dscao    时间: 2023-4-29 22:48
本帖最后由 dscao 于 2023-5-5 23:41 编辑

这两年ha的每月升级都有新的好用的东西出现。
昨天用M401A电视盒子升级了最新测试版
支持多个语音助手
支持多个tts或stt,每个语音助手可指定使用某个tts或stt
最重要的就是实现了完全本地化,虽然addon提供的TTS相比edge是差了很多,但是听懂肯定是没问题的。因为没有语音输入设备,语音识别方面还没测试。需要esphome制作硬件,唤醒方式可以Esphome中配置,相信也会有更好更适合自己的方式出现。
这个我是非常期待的,后续肯定也会不断优化的。
等正式版出来,主用的系统升级一下,再做个简单的esphome voice_assistant来玩玩。
  1. i2s_audio:
  2.   i2s_lrclk_pin: GPIO33
  3.   i2s_bclk_pin: GPIO19

  4. microphone:
  5. - platform: i2s_audio
  6.    id: echo_microphone
  7.    i2s_din_pin: GPIO23

  8. voice_assistant:
  9.   microphone: echo_microphone

  10. media_player:
  11.   - platform: i2s_audio
  12.     id: media_out
  13.     name: esp32 i2s media player
  14.     dac_type: external
  15.     i2s_dout_pin: GPIO22
  16.     mode: mono
复制代码



作者: bainiu    时间: 2023-4-30 07:53
本地部署安心生产力。期待
作者: 窗寒轻雨    时间: 2023-4-30 08:43
值得期待~
作者: iamhyde    时间: 2023-5-1 23:48
dscao 发表于 2023-4-29 22:48
这两年ha的每月升级都有新的好用的东西出现。
昨天用M401A电视盒子升级了最新测试版
支持多个语音助手

买了个INMP441接ESP32试试新版的esphome的麦克风组件
作者: yoyosuka    时间: 2023-5-2 17:08
远场拾音我正在琢磨把倒闭的叮咚音箱利用上来,肯定比单一麦克强的多,等搞定了回头分享方案,如果哪位大神有现成的方案更好。
作者: LT21    时间: 2023-5-2 17:09
试听一下piper的中文示例,还有很长的路呀
作者: quakye    时间: 2023-5-2 19:56
马一个等后续
作者: hackyjso    时间: 2023-5-3 10:37
本地语音如果有像 chatgpt 一样针对智能家居而训练过的模型来识别,应该会很好玩,,很期待
作者: centurion2009    时间: 2023-5-3 18:35
比起联网的智障,这个可是亲生的,可以tiaojiao
作者: qmzp    时间: 2023-5-4 08:24
已经更新了2023.5,确实支持了中文。 就看哪家麦克风靠谱了
作者: qmzp    时间: 2023-5-4 08:36
openai 的api有成功输入的吗 ?  
作者: 520key    时间: 2023-5-4 11:15
大佬,更新到5.0后提示这个错误AttributeError: 'DefaultAgent' object has no attribute 'supported_languages' ,要怎么解决呢?
Home Assistant 2023.5.0
Supervisor 2023.04.1
Operating System 10.1
前端版本: 20230503.1 - latest

作者: piww    时间: 2023-5-4 15:27
我的升级后tuyaV2报错了,你们的报错了吗?求解决。。。
作者: pikaq    时间: 2023-5-4 19:01
https://bbs.hassbian.com/thread-20399-1-1.html
上个月更新到2023.4版本又回退到了2023.3月版本。
从屏幕左边缘往右划出侧边栏菜单这个功能有加回来不?
翻译不全的问题解决没有?
作者: jsq2627    时间: 2023-5-4 19:05
本帖最后由 jsq2627 于 2023-5-4 19:06 编辑

https://rhasspy.github.io/piper-samples/#zh-cn
这是本地 TTS 的中文效果。。可以说完全不能用
本地 STT 要跑 openai whisper,硬件要求有点高
还是老老实实走云端 API 吧。。

作者: muxiachuixue    时间: 2023-5-4 21:06
qmzp 发表于 2023-5-4 08:36
openai 的api有成功输入的吗 ?

苹果设备可以用快捷指令配合alone大神的这个集成,能实现与chatGPT的语音自由对话。本地语音应该也是可以做到的。
作者: sorrypqa    时间: 2023-5-4 21:47
jsq2627 发表于 2023-5-4 19:05
https://rhasspy.github.io/piper-samples/#zh-cn
这是本地 TTS 的中文效果。。可以说完全不能用
本地 STT  ...

真是难听!

作者: qmzp    时间: 2023-5-4 21:47
太感谢了
作者: qmzp    时间: 2023-5-4 21:49
muxiachuixue 发表于 2023-5-4 21:06
苹果设备可以用快捷指令配合alone大神的这个集成,能实现与chatGPT的语音自由对话。本地语音应该也是可以 ...

我想了好久,没想到找到了答案,谢谢
作者: sikai    时间: 2023-5-5 11:05
这边whisper只能把语音识别为繁体中文,语音助手就会报不能理解。 有遇到类似情况的吗?
作者: sxrcm    时间: 2023-5-5 13:53
升级了,但感觉也就那样,没新生的感脚
作者: MoontoC    时间: 2023-5-5 23:54
本帖最后由 MoontoC 于 2023-5-5 23:55 编辑

2023.5.1路过, 没有语音条件, 打开右上角助手, 不管输入什么, 都是"糟糕, 发生错误", 没觉得5.x对中文用户有什么用
P.S. 比3/4.x体验好多了, 5.x之前输入什么都给出英文错误提示, 顺便日志里并没有错误信息, 到底产生了什么错误无法得知

作者: newspaper    时间: 2023-5-6 13:18
请问语音年,语音的功能,可以接入amazon 的echo , 说中文开关灯吗?
作者: zhanfu86    时间: 2023-5-8 13:53
jsq2627 发表于 2023-5-4 19:05
https://rhasspy.github.io/piper-samples/#zh-cn
这是本地 TTS 的中文效果。。可以说完全不能用
本地 STT  ...

不细听都听不出在讲什么。
作者: sczdlj`    时间: 2023-5-11 00:32
高手,这是高手!
作者: buyaozc    时间: 2023-5-11 08:51
用ESP32的I2S,接i2s mems
https://esphome.io/components/microphone/i2s_audio.html
作者: liqingbo    时间: 2023-9-21 15:10
什么时候能出个教程啊,这个新出的功能怎么用
作者: keshiyong    时间: 2023-9-21 16:05
没上GPU基本不用玩,本地唤醒,远场语音识别就难倒一大片,TTS和NLU也是,开源没个十年都不一定有个结果。HA好好做好平台就行,玩AI还不够
作者: XCray    时间: 2023-9-25 11:09
keshiyong 发表于 2023-9-21 16:05
没上GPU基本不用玩,本地唤醒,远场语音识别就难倒一大片,TTS和NLU也是,开源没个十年都不一定有个结果。H ...

确实。
本来指望本地tts能发挥一个好的作用,比如时延更低啥的,但实际效果并不理想
作者: a_dongde    时间: 2023-12-18 08:44
现在箱将语音功能接入HA  ,目前最好用的还是小爱吗?
作者: mobility    时间: 2023-12-18 10:58
a_dongde 发表于 2023-12-18 08:44
现在箱将语音功能接入HA  ,目前最好用的还是小爱吗?

感觉播放的延迟 时大时小,凑合着用。




欢迎光临 『瀚思彼岸』» 智能家居技术论坛 (https://bbs.hassbian.com/) Powered by Discuz! X3.5