来一起来聊聊AI吧

c1pher_小愚 · 发表于 2025-3-14 18:05:24

本帖最后由 25989406 于 2025-3-14 22:50 编辑

副标题：追寻贾维斯的足迹：Home Assistant与AI交互的进化之路
——千问给我起，有点肉麻
自从《钢铁侠》中的贾维斯让我们梦想拥有一位全能的AI助手以来，Home Assistant (HA) 爱好者们一直在探索将这个愿景变为现实。近年来，大型语言模型（LLM）领域的突破性进展，正逐步拉近我们与“贾维斯”的距离。
回顾下HA在语音和LLM领域演进历程：
● 2023年1月：HA助手和意图解析的引入，为我们提供了一个初步的语音交互框架。
● 2023年4月：本地TTS与STT的改进，如Piper和Whisper，以及HA Cloud STT服务的推出，增强了语音交互的能力。M5STACK ATOM Echo 基础语音助手实现
● 2023年7月：Android平台上的语音助手和自定义短语功能，让交互更加个性化。
● 2023年10月：openwakeword 本地唤醒词
● 2024年2月：引入设备运行唤醒词，让AI更加随时待命。
● 2024年6月：AI开始控制设备，增强了唤醒词和计时器功能。
● 2024年8月：LLM节点如OpenAI和Ollama的插件支持，扩展了工具类调用的范围。
● 2024年12月：Voice Preview Edition硬件的发布，预示着更先进的语音体验。
● 2025年2月：对话记录、流式输出、agent共享记忆，MCP协议
在2月份的视频会议中，HA团队透露了流式输出语音交互的开发，这是一个重要的里程碑，意味着更流畅的实时对话成为可能。

ha正在以肉眼可见的速度快速跟进LLM上的变化，首先控制家居时，简单意图指令开灯优先本地意图执行，然后复杂的交互要使用大模型的function调用，这是ha给出的第一条路，就是ha自己实现语音交互，自己直接对接LLM，从ha官方的动作能明显看到，他们对自己交互的速度并不满意，正着手在跟进文字+语音流式输出的方案。

在二月的发布会议中ha引出了MCP协议，这是一个很强的模型工具标准化协议（这是我自己的理解提炼，轻喷），有了它我们可以给LLM agent快速赋能，秒级接入ha。这，就是ha给出了大模型联动的第二条路，也就是开放能力，提供mcp server给其他LLM agent，做到agent快速接入，比如现在的 Claude desktop、5ire、hyperchat 等支持的mcp客户端你可以很容易在上面控制你的家。

去年底小智AI的出现，以其惊人的交互速度展示了LLM在语音助手领域的潜力。这交互速度激发了我思考如何将其引入HA。目前，ck大佬已经把ha作为LLM能力方，接入小智服务端，（https://bbs.hassbian.com/thread-28667-1-1.html）。但从长远看，让小智这样的LLM Agent调用HA的能力（类似于8年前接入的天猫精灵），可能是一个更具扩展性的方式，我正在为此努力
（https://www.bilibili.com/video/BV1SLQEYKEEA/ pr已提交待合并）。细想一下，我和ck的这两种想法，是否就印证了ha提供的两条联动大模型的路线呢？

当然未来的HA肯定不仅限于语音交互，多模态模型的接入将使它能够理解和响应更多的感官输入，如视频、图片和传感器数据等等，模型能力和交互水平会再有一波升级。在今天我就想跟大家探讨一下前面的问题：在日常生活中，你认为哪条路线更符合未来的发展需求呢（无需考虑算力还是本地化部署的问题）。

1.是HA自成一体，做大做强（LLM由ha进行对接）。
2.开放接口，作为一个智能家居模块。让AI代理也能调用其功能呢。

我先说：
做大做强比较理想化，适合作为长期目标来看。因为所有内容都要自己做，比较依赖ha平台自己的能力，比如流式stt和tts，再往远看多领域的多模型调度，多模态适配。
如果退一步把ha作为一个智能家居的能力模块来看，就可以跟整体的复杂逻辑做解耦，以小智为例，语音交互由小智自己实现，基于MCP或者简单的function调用，我们可以快速接入ha做智能家居相关的工作。同时也可以接入其他能力模块，比如联网搜索，比如文件整理，比如制作文件等等，见下图。做到任何一个AI agent 都可以快速的应用ha。

antsunzj · 发表于 2025-3-15 09:10:18

我们基于第二种思路，调用ha的api，优选大模型，已经做出来了，在内部测试，长期测试和使用下来，效果会比第一种好。这样既保证了智能家居的控制能力，又兼容了第三方大模型的其他的能力。

polisher · 发表于 2025-3-15 09:18:34

成年人不做选择题，混合模式。既提供本地LLM集成，保障隐私和稳定性；又开放标准化接口，支持与外部AI代理的交互。混合模式可以兼顾不同用户的需求，便于HA在智能家居领域的进一步推广。

c1pher_小愚 · 发表于 2025-3-15 09:30:30

polisher 发表于 2025-3-15 09:18
成年人不做选择题，混合模式。既提供本地LLM集成，保障隐私和稳定性；又开放标准化接口，支持与外部AI代理 ...

确实成年人都要，我想问的是你家里你会怎么用，比如什么情况下走纯ha的，什么情况下走AI代理的

c1pher_小愚 · 发表于 2025-3-15 09:55:23

antsunzj 发表于 2025-3-15 09:10
我们基于第二种思路，调用ha的api，优选大模型，已经做出来了，在内部测试，长期测试和使用下来，效果会比 ...

怎么没发出来哇

duanyudan123 · 发表于 2025-3-15 10:22:46

他们也很头疼，参考：https://gist.github.com/balloob/ba8285ca8114bd66dc96d9a72e7c5667

antsunzj · 发表于 2025-3-15 10:46:20

25989406 发表于 2025-3-15 09:55
怎么没发出来哇

买了服务器自己部署了deepseek v3，语音部门应该采购豆包的api，还在做优化。要不费用扛不住。

jonefork · 发表于 2025-3-15 19:12:27

有了AI之后，确实很方便了

polisher · 发表于 2025-3-16 13:25:47

25989406 发表于 2025-3-15 09:30
确实成年人都要，我想问的是你家里你会怎么用，比如什么情况下走纯ha的，什么情况下走AI代理的 ...

说来惭愧，咱对AI一无所知。
就现在对AI的浅尝体验，还是走AI代理的好。窃以为当下的AI还是仅为探索阶段，尚无法达到所谓的智能水平，能体验最新AI成果也算满足咱们的好奇心。
咱想象中的AI，他能事无巨细的观察你，能预判你的行为和想法，甚至比你更了解你自己。比如，他能预判今晚你与你的爱人会产生羞羞冲的动，于是在最恰当的时候营造出让你心动的紫色灯光。
当然，达到这一步，人们又会对AI产生恐惧，因为没有监管的AI，可以轻松的拿捏住每一个人。

c1pher_小愚 · 发表于 2025-3-17 17:38:20

duanyudan123 发表于 2025-3-15 10:22
他们也很头疼，参考：https://gist.github.com/balloob/ba8285ca8114bd66dc96d9a72e7c5667

哈哈哈

		自动登录	找回密码
密码			立即注册

[技术探讨] 来一起来聊聊AI吧

教程狂人

论坛风云人物