本帖最后由 25989406 于 2025-3-14 22:50 编辑
副标题:追寻贾维斯的足迹:Home Assistant与AI交互的进化之路
——千问给我起,有点肉麻
自从《钢铁侠》中的贾维斯让我们梦想拥有一位全能的AI助手以来,Home Assistant (HA) 爱好者们一直在探索将这个愿景变为现实。近年来,大型语言模型(LLM)领域的突破性进展,正逐步拉近我们与“贾维斯”的距离。
回顾下HA在语音和LLM领域演进历程:
● 2023年1月:HA助手和意图解析的引入,为我们提供了一个初步的语音交互框架。
● 2023年4月:本地TTS与STT的改进,如Piper和Whisper,以及HA Cloud STT服务的推出,增强了语音交互的能力。M5STACK ATOM Echo 基础语音助手实现
● 2023年7月:Android平台上的语音助手和自定义短语功能,让交互更加个性化。
● 2023年10月:openwakeword 本地唤醒词
● 2024年2月:引入设备运行唤醒词,让AI更加随时待命。
● 2024年6月:AI开始控制设备,增强了唤醒词和计时器功能。
● 2024年8月:LLM节点如OpenAI和Ollama的插件支持,扩展了工具类调用的范围。
● 2024年12月:Voice Preview Edition硬件的发布,预示着更先进的语音体验。
● 2025年2月:对话记录、流式输出、agent共享记忆,MCP协议
在2月份的视频会议中,HA团队透露了流式输出语音交互的开发,这是一个重要的里程碑,意味着更流畅的实时对话成为可能。
ha正在以肉眼可见的速度快速跟进LLM上的变化,首先控制家居时,简单意图指令开灯优先本地意图执行,然后复杂的交互要使用大模型的function调用,这是ha给出的第一条路,就是ha自己实现语音交互,自己直接对接LLM,从ha官方的动作能明显看到,他们对自己交互的速度并不满意,正着手在跟进文字+语音流式输出的方案。
在二月的发布会议中ha引出了MCP协议,这是一个很强的模型工具标准化协议(这是我自己的理解提炼,轻喷),有了它我们可以给LLM agent快速赋能,秒级接入ha。这,就是ha给出了大模型联动的第二条路,也就是开放能力,提供mcp server给其他LLM agent,做到agent快速接入,比如现在的 Claude desktop、5ire、hyperchat 等支持的mcp客户端你可以很容易在上面控制你的家。 去年底小智AI的出现,以其惊人的交互速度展示了LLM在语音助手领域的潜力。这交互速度激发了我思考如何将其引入HA。目前,ck大佬已经把ha作为LLM能力方,接入小智服务端,(https://bbs.hassbian.com/thread-28667-1-1.html)。但从长远看,让小智这样的LLM Agent调用HA的能力(类似于8年前接入的天猫精灵),可能是一个更具扩展性的方式,我正在为此努力
(https://www.bilibili.com/video/BV1SLQEYKEEA/ pr已提交待合并)。细想一下,我和ck的这两种想法,是否就印证了ha提供的两条联动大模型的路线呢?
当然未来的HA肯定不仅限于语音交互,多模态模型的接入将使它能够理解和响应更多的感官输入,如视频、图片和传感器数据等等,模型能力和交互水平会再有一波升级。在今天我就想跟大家探讨一下前面的问题:在日常生活中,你认为哪条路线更符合未来的发展需求呢(无需考虑算力还是本地化部署的问题)。 1.是HA自成一体,做大做强(LLM由ha进行对接)。
2.开放接口,作为一个智能家居模块。让AI代理也能调用其功能呢。
我先说:
做大做强比较理想化,适合作为长期目标来看。因为所有内容都要自己做,比较依赖ha平台自己的能力,比如流式stt和tts,再往远看多领域的多模型调度,多模态适配。
如果退一步把ha作为一个智能家居的能力模块来看,就可以跟整体的复杂逻辑做解耦,以小智为例,语音交互由小智自己实现,基于MCP或者简单的function调用,我们可以快速接入ha做智能家居相关的工作。同时也可以接入其他能力模块,比如联网搜索,比如文件整理,比如制作文件等等,见下图。做到任何一个AI agent 都可以快速的应用ha。
|