本帖最后由 phili 于 2025-11-14 14:13 编辑
我发现小米近期开源的 Miloco 项目(一个家庭AI中枢预研方案)在技术路径上提出了一些有趣的思路,尤其它强调的本地化处理和多模态交互,或许能为我们HA社区带来一些新的启发。
真正的本地视觉理解:Miloco使用小米摄像头作为视觉输入,但关键在于,所有的视频流分析都通过本地部署的 MiMo-VL-Miloco-7B 模型在设备端完成。这意味着敏感的家庭影像数据可以无需上传至云端,对于注重隐私的HA用户来说,这代表了一种重要的技术方向。 从“执行命令”到“理解意图”:我们熟悉的HA自动化是精确的“如果-就”逻辑。而Miloco基于大语言模型,旨在理解“我感觉有点冷”这类模糊指令,并自动推理出需要关闭空调、调节风扇等操作。这为未来更智能的自动化提供了参考。 多模态交互的融合:项目尝试将视觉(摄像头) 和语言(用户指令) 信息在本地进行融合理解,这对于构建更能感知环境上下文的家居系统有探索意义。
🛠️ 技术架构一瞥从开源代码来看,Miloco采用了清晰的微服务架构,核心包括: miloco_server (Python后端):负责业务逻辑、设备编排和与小米Home服务的集成。 miloco_ai_engine (Python + C++混合):基于llama.cpp推理后端,运行视觉和语言模型。 web_ui (JavaScript前端):提供Web交互界面。
整个系统通过Docker容器化部署,要求NVIDIA 30系列及以上GPU(8GB+显存),这要求还不低。 🔮 对HA生态的启发与可能虽然Miloco目前紧密绑定小米生态,且对硬件要求较高,但它的出现,让我们可以期待一些未来的可能性: HA集成与能力互补:最理想的模式,是未来能通过一个HA自定义集成,将Miloco作为一个强大的“本地AI协处理器”接入HA。HA继续负责跨品牌设备的可靠联动和自动化调度,而将复杂的意图理解和视觉场景分析任务“外包”给Miloco处理。 丰富本地AI生态:它为HA社区中关注本地AI的开发者提供了一个具体的参考实现,展示了如何在消费级硬件上运行多模态大模型并实现实时交互。 隐私保护范式:其架构清晰地划分了数据处理边界(视觉数据完全在局域网内,仅控制指令上云),为我们设计自家注重隐私的智能家居系统提供了借鉴。
并且这好像把小米之前没有开放的接口又进一步开放了,还做了个小米 MCP。小米摄像头视频流、APP场景也可以接入HA了。
项目分析报告:https://deepwiki.com/XiaoMi/xiaomi-miloco/2-getting-started
项目地址:https://github.com/XiaoMi/xiaomi-miloco
|