找回密码
 立即注册
查看: 417|回复: 14

[技术探讨] 来一起来聊聊AI吧

[复制链接]

29

主题

1385

回帖

6364

积分

元老级技术达人

积分
6364
金钱
4925
HASS币
100
发表于 2025-3-14 18:05:24 | 显示全部楼层 |阅读模式
本帖最后由 25989406 于 2025-3-14 22:50 编辑

副标题:追寻贾维斯的足迹:Home Assistant与AI交互的进化之路
        ——千问给我起,有点肉麻
自从《钢铁侠》中的贾维斯让我们梦想拥有一位全能的AI助手以来,Home Assistant (HA) 爱好者们一直在探索将这个愿景变为现实。近年来,大型语言模型(LLM)领域的突破性进展,正逐步拉近我们与“贾维斯”的距离。
回顾下HA在语音和LLM领域演进历程:
● 2023年1月:HA助手和意图解析的引入,为我们提供了一个初步的语音交互框架。
● 2023年4月:本地TTS与STT的改进,如Piper和Whisper,以及HA Cloud STT服务的推出,增强了语音交互的能力。M5STACK ATOM Echo 基础语音助手实现
● 2023年7月:Android平台上的语音助手和自定义短语功能,让交互更加个性化。
● 2023年10月:openwakeword 本地唤醒词
● 2024年2月:引入设备运行唤醒词,让AI更加随时待命。
● 2024年6月:AI开始控制设备,增强了唤醒词和计时器功能。
● 2024年8月:LLM节点如OpenAI和Ollama的插件支持,扩展了工具类调用的范围。
● 2024年12月:Voice Preview Edition硬件的发布,预示着更先进的语音体验。
● 2025年2月:对话记录、流式输出、agent共享记忆,MCP协议
在2月份的视频会议中,HA团队透露了流式输出语音交互的开发,这是一个重要的里程碑,意味着更流畅的实时对话成为可能。


ha正在以肉眼可见的速度快速跟进LLM上的变化,首先控制家居时,简单意图指令开灯优先本地意图执行,然后复杂的交互要使用大模型的function调用,这是ha给出的第一条路,就是ha自己实现语音交互,自己直接对接LLM,从ha官方的动作能明显看到,他们对自己交互的速度并不满意,正着手在跟进文字+语音流式输出的方案。


在二月的发布会议中ha引出了MCP协议,这是一个很强的模型工具标准化协议(这是我自己的理解提炼,轻喷),有了它我们可以给LLM agent快速赋能,秒级接入ha。这,就是ha给出了大模型联动的第二条路,也就是开放能力,提供mcp server给其他LLM agent,做到agent快速接入,比如现在的 Claude desktop、5ire、hyperchat 等支持的mcp客户端你可以很容易在上面控制你的家。

去年底小智AI的出现,以其惊人的交互速度展示了LLM在语音助手领域的潜力。这交互速度激发了我思考如何将其引入HA。目前,ck大佬已经把ha作为LLM能力方,接入小智服务端,(https://bbs.hassbian.com/thread-28667-1-1.html)。但从长远看,让小智这样的LLM Agent调用HA的能力(类似于8年前接入的天猫精灵),可能是一个更具扩展性的方式,我正在为此努力
https://www.bilibili.com/video/BV1SLQEYKEEA/ pr已提交待合并)。细想一下,我和ck的这两种想法,是否就印证了ha提供的两条联动大模型的路线呢?

当然未来的HA肯定不仅限于语音交互,多模态模型的接入将使它能够理解和响应更多的感官输入,如视频、图片和传感器数据等等,模型能力和交互水平会再有一波升级。在今天我就想跟大家探讨一下前面的问题:在日常生活中,你认为哪条路线更符合未来的发展需求呢(无需考虑算力还是本地化部署的问题)。

1.是HA自成一体,做大做强(LLM由ha进行对接)。
2.开放接口,作为一个智能家居模块。让AI代理也能调用其功能呢。

我先说:
做大做强比较理想化,适合作为长期目标来看。因为所有内容都要自己做,比较依赖ha平台自己的能力,比如流式stt和tts,再往远看多领域的多模型调度,多模态适配。
如果退一步把ha作为一个智能家居的能力模块来看,就可以跟整体的复杂逻辑做解耦,以小智为例,语音交互由小智自己实现,基于MCP或者简单的function调用,我们可以快速接入ha做智能家居相关的工作。同时也可以接入其他能力模块,比如联网搜索,比如文件整理,比如制作文件等等,见下图。做到任何一个AI agent 都可以快速的应用ha。

回复

使用道具 举报

62

主题

544

回帖

6484

积分

论坛元老

积分
6484
金钱
5803
HASS币
240

教程狂人论坛风云人物

发表于 2025-3-15 09:10:18 | 显示全部楼层
我们基于第二种思路,调用ha的api,优选大模型,已经做出来了,在内部测试,长期测试和使用下来,效果会比第一种好。这样既保证了智能家居的控制能力,又兼容了第三方大模型的其他的能力。
尝试过萝卜,我想你一定会忘记青瓜
回复

使用道具 举报

19

主题

263

回帖

2418

积分

论坛DIY达人

积分
2418
金钱
2131
HASS币
20
发表于 2025-3-15 09:18:34 | 显示全部楼层
成年人不做选择题,混合模式。既提供本地LLM集成,保障隐私和稳定性;又开放标准化接口,支持与外部AI代理的交互。混合模式可以兼顾不同用户的需求,便于HA在智能家居领域的进一步推广。
回复

使用道具 举报

29

主题

1385

回帖

6364

积分

元老级技术达人

积分
6364
金钱
4925
HASS币
100
 楼主| 发表于 2025-3-15 09:30:30 | 显示全部楼层
polisher 发表于 2025-3-15 09:18
成年人不做选择题,混合模式。既提供本地LLM集成,保障隐私和稳定性;又开放标准化接口,支持与外部AI代理 ...

确实成年人都要,我想问的是你家里你会怎么用,比如什么情况下走纯ha的,什么情况下走AI代理的
回复

使用道具 举报

29

主题

1385

回帖

6364

积分

元老级技术达人

积分
6364
金钱
4925
HASS币
100
 楼主| 发表于 2025-3-15 09:55:23 | 显示全部楼层
antsunzj 发表于 2025-3-15 09:10
我们基于第二种思路,调用ha的api,优选大模型,已经做出来了,在内部测试,长期测试和使用下来,效果会比 ...

怎么没发出来哇
回复

使用道具 举报

16

主题

212

回帖

1247

积分

金牌会员

积分
1247
金钱
1019
HASS币
0
发表于 2025-3-15 10:22:46 | 显示全部楼层
回复

使用道具 举报

62

主题

544

回帖

6484

积分

论坛元老

积分
6484
金钱
5803
HASS币
240

教程狂人论坛风云人物

发表于 2025-3-15 10:46:20 | 显示全部楼层

买了服务器自己部署了deepseek v3,语音部门应该采购豆包的api,还在做优化。要不费用扛不住。
尝试过萝卜,我想你一定会忘记青瓜
回复

使用道具 举报

0

主题

15

回帖

78

积分

注册会员

积分
78
金钱
63
HASS币
0
发表于 2025-3-15 19:12:27 | 显示全部楼层
有了AI之后,确实很方便了
回复

使用道具 举报

19

主题

263

回帖

2418

积分

论坛DIY达人

积分
2418
金钱
2131
HASS币
20
发表于 2025-3-16 13:25:47 | 显示全部楼层
25989406 发表于 2025-3-15 09:30
确实成年人都要,我想问的是你家里你会怎么用,比如什么情况下走纯ha的,什么情况下走AI代理的 ...

说来惭愧,咱对AI一无所知。
就现在对AI的浅尝体验,还是走AI代理的好。窃以为当下的AI还是仅为探索阶段,尚无法达到所谓的智能水平,能体验最新AI成果也算满足咱们的好奇心。
咱想象中的AI,他能事无巨细的观察你,能预判你的行为和想法,甚至比你更了解你自己。比如,他能预判今晚你与你的爱人会产生羞羞冲的动,于是在最恰当的时候营造出让你心动的紫色灯光。
当然,达到这一步,人们又会对AI产生恐惧,因为没有监管的AI,可以轻松的拿捏住每一个人。
回复

使用道具 举报

29

主题

1385

回帖

6364

积分

元老级技术达人

积分
6364
金钱
4925
HASS币
100
 楼主| 发表于 2025-3-17 17:38:20 | 显示全部楼层
duanyudan123 发表于 2025-3-15 10:22
他们也很头疼,参考:https://gist.github.com/balloob/ba8285ca8114bd66dc96d9a72e7c5667

哈哈哈
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian

GMT+8, 2025-5-1 09:57 , Processed in 0.258777 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表