小米开源了 AI 摄像头分析项目

phili · 发表于 2025-11-14 14:12:27

本帖最后由 phili 于 2025-11-14 14:13 编辑

我发现小米近期开源的 Miloco 项目（一个家庭AI中枢预研方案）在技术路径上提出了一些有趣的思路，尤其它强调的本地化处理和多模态交互，或许能为我们HA社区带来一些新的启发。

真正的本地视觉理解：Miloco使用小米摄像头作为视觉输入，但关键在于，所有的视频流分析都通过本地部署的 MiMo-VL-Miloco-7B 模型在设备端完成。这意味着敏感的家庭影像数据可以无需上传至云端，对于注重隐私的HA用户来说，这代表了一种重要的技术方向。
从“执行命令”到“理解意图”：我们熟悉的HA自动化是精确的“如果-就”逻辑。而Miloco基于大语言模型，旨在理解“我感觉有点冷”这类模糊指令，并自动推理出需要关闭空调、调节风扇等操作。这为未来更智能的自动化提供了参考。
多模态交互的融合：项目尝试将视觉（摄像头）和语言（用户指令）信息在本地进行融合理解，这对于构建更能感知环境上下文的家居系统有探索意义。

🛠️ 技术架构一瞥

从开源代码来看，Miloco采用了清晰的微服务架构，核心包括：

miloco_server (Python后端)：负责业务逻辑、设备编排和与小米Home服务的集成。
miloco_ai_engine (Python + C++混合)：基于llama.cpp推理后端，运行视觉和语言模型。
web_ui (JavaScript前端)：提供Web交互界面。

整个系统通过Docker容器化部署，要求NVIDIA 30系列及以上GPU（8GB+显存），这要求还不低。

🔮 对HA生态的启发与可能

虽然Miloco目前紧密绑定小米生态，且对硬件要求较高，但它的出现，让我们可以期待一些未来的可能性：

HA集成与能力互补：最理想的模式，是未来能通过一个HA自定义集成，将Miloco作为一个强大的“本地AI协处理器”接入HA。HA继续负责跨品牌设备的可靠联动和自动化调度，而将复杂的意图理解和视觉场景分析任务“外包”给Miloco处理。
丰富本地AI生态：它为HA社区中关注本地AI的开发者提供了一个具体的参考实现，展示了如何在消费级硬件上运行多模态大模型并实现实时交互。
隐私保护范式：其架构清晰地划分了数据处理边界（视觉数据完全在局域网内，仅控制指令上云），为我们设计自家注重隐私的智能家居系统提供了借鉴。

并且这好像把小米之前没有开放的接口又进一步开放了，还做了个小米 MCP。小米摄像头视频流、APP场景也可以接入HA了。

项目分析报告：https://deepwiki.com/XiaoMi/xiaomi-miloco/2-getting-started
项目地址：https://github.com/XiaoMi/xiaomi-miloco

SunShinenny · 发表于 2025-11-14 15:40:38

期待有更好的使用场景吧，或者降低对于 GPU 的要求使得可以在小型服务器上运行。。。

不过我更希望能有本地摄像头的拉流，这样可以接入 HA 了，希望有大佬可以改改实现（狗头

木子李 · 发表于 2025-11-14 16:07:20

非常看好这个应用前景，真正的自动化还是人的意图，大模型可以模拟人的意图，摄像机就像人的眼睛，模拟人的视角，打开了事件检测潘多拉魔盒

木子李 · 发表于 2025-11-14 16:27:33

本帖最后由木子李于 2025-11-14 16:31 编辑

1、提高大模型对画面语义理解之后，家居控制指令的精准性
2、降低端侧大模型对于硬件的消耗，最好未来能出一个小米官方的低功耗带算力的大模型网关，或则直接带本地算力的小爱音箱
3、摄像机解码优化，在满足识别要求下，降低检测图像分辨率，取帧间隔，降低CV检测推理的算力消耗
4、监控隐私顾虑还是发展的拦路虎，因为只要联网监控外泄的顾虑就不会消失：可以考虑专用的视觉检测摄像机，和人们印象中的摄像机区别开，不具备视频预览+录像回放功能，特殊视频编解码协议，视频画面只能本地设备读取，即读即丢；或者用深度摄像机分析，或者除本地大模型以外预览摄像机画面是马赛克，大家敢把摄像头放在厕所、卧室里，才算全屋智能

Carbon · 发表于 2025-11-14 17:12:12

简单看了一下代码，看着和小米摄像头的通信细节都放在了动态链接库里，想要完全做到HA本地推流不知道好不好搞。。。

laojimigu · 发表于 2025-11-15 13:46:14

可惜跑不动..坐等大佬提取本地流

c1pher_小愚 · 发表于 2025-11-17 19:26:37

1.堵着大家的是算力
2.有了算力，我觉得没必要单独部署小米，自己部署一套qwen3 vl就已经很不错了，ha只要兼容一下视频流就可以轻松覆盖小米这个（当然现在基于图片的识别也不是不行）
3.估计小米摄像头这个状态，感觉没有很大的覆盖面，小米得兼容rtsp或者ovif协议才有搞头

2CMOL · 发表于 2025-11-20 22:22:28

最低限制3060 功耗+算力双堵

anlong · 发表于 2025-11-21 10:18:08

SunShinenny 发表于 2025-11-14 15:40
期待有更好的使用场景吧，或者降低对于 GPU 的要求使得可以在小型服务器上运行。。。

不过我更希望能有本 ...

这不就来了： https://github.com/miiot/micam

		自动登录	找回密码
密码			立即注册

[新奇玩法] 小米开源了 AI 摄像头分析项目