找回密码
 立即注册

微信扫码登录

搜索
查看: 75|回复: 7

[技术探讨] 告别“小爱同学”:我开发了一款本地化 AI 手势控制加载项,毫秒级响应

[复制链接]

6

主题

44

回帖

444

积分

论坛技术达人

积分
444
金钱
389
HASS币
20
发表于 1 小时前 | 显示全部楼层 |阅读模式
本帖最后由 岩风 于 2025-12-3 11:18 编辑

【引言】 为什么我们需要“第三种交互”?
最近小米推出了的 miloco 视觉方案,其中一个场景展示了手势识别功能。这让我重新审视了目前智能家居的主流交互方式——语音控制。

作为一名智能家居玩家,在使用小爱音箱时,我常面临两个真实的痛点:
  • 唤醒词的尴尬:每次操作前都要喊一句“小爱同学”,在深夜或安静环境下显得尤为笨拙繁琐。
  • 多任务的冲突:当音箱正在播放高潮音乐,或者我正在接听重要电话时,想要暂停播放,还得大声喊话打断,体验非常割裂。
如果不说话,也不掏手机,能不能优雅地控制家里的一切? 答案就是:手势控制

【技术选型】 为什么是 MediaPipe?
虽然绿米早在 2021 年就推出了 AI 手势摄像头,但作为一个折腾爱好者,我更倾向于“榨干”现有设备的价值。我的目标很明确:用最普通的网络摄像头,跑通专业的 AI 识别
在简单思考后,我排除了通过 LLM(大模型)分析画面的方案,因为从截图到分析再到返回结果,至少几秒的延迟对于“开关灯”这种瞬时需求来说是不可接受的,同时一直调用LLM进行检测的成本我也承担不起。
最终,我锁定了 Google MediaPipe
  • 低延迟:专为实时设备端(On-Device)设计,速度极快。
  • 高精度:能够输出 21 个手部关键点,支持 3D 坐标追踪。
  • 开源免费:零成本,而且本地部署,是低成本打造智能交互方案的最佳选择。

image.png
官方体验链接:https://mediapipe-studio.webapps ... recognizer?hl=zh-cn
而我只需要将这套模型导入到本地,接上我的摄像头和小爱音箱就OK了!

【效果展示】 毫秒级响应的“魔法”体验
经过一番折腾,总算实现了想要的效果:

目前插件已支持 8 种基础手势,覆盖了绝大多数日常控制场景:

手势
描述
来源
准确率
用途示例
🖐️ 张开手掌
五指全部伸直
Google 内置
95%+
开灯、播放
✊ 握拳
五指全部收起
Google 内置
95%+
关灯、暂停
☝️ 食指向上
只有食指伸直
Google 内置
95%+
音量增加、下一首
👍 点赞
拇指向上
Google 内置
95%+
赞同、增加
👎 点踩
拇指向下
Google 内置
95%+
反对、减少
✌️ 剪刀手
食指和中指伸出
Google 内置
95%+
选项 2、胜利
🤟 我爱你
拇指+食指+小指伸出
Google 内置
95%+
爱心、摇滚
👌 OK 手势
拇指食指接触成圈,其他三指伸直
自定义检测
~85%
确认、同意

实测手势摆好的瞬间,指令即刻触发,这种“所见即所得”的掌控感,是语音交互无法比拟的!
想要实现上面的功能也非常简单,大家只要安装我开发的手势识别插件,接上HA自带的操控指令,即可马上体验。
项目地址: GitHub - shoushi-ha-addon
  • 常用的参数都已经放在配置界面,大家可以按需调整
image.png

【思考】 迈向多模态交互的未来
通过不同的手势控制智能家居,好比我们手指随着拿着各种开关,可以随时使用。它并非为了取代语音或 App,而是补全了智能家居交互的拼图。
  • 人走灯灭是被动的感知;
  • 语音控制是显性的指令;
  • 手势控制则是介于两者之间的自然交互——它无声、直观、即时。
我相信在未来,随着端侧 AI 算力的提升,智能家居将不再仅仅是“听话”,而是能通过视觉理解我们的姿态、表情甚至意图。
期待与大家的交流~

回复

使用道具 举报

6

主题

44

回帖

444

积分

论坛技术达人

积分
444
金钱
389
HASS币
20
 楼主| 发表于 1 小时前 | 显示全部楼层

告别“小爱同学”:我开发了一款本地化 AI 手势控制加载项,毫秒级响应

本帖最后由 岩风 于 2025-12-3 11:19 编辑

-
回复

使用道具 举报

14

主题

281

回帖

1570

积分

金牌会员

积分
1570
金钱
1265
HASS币
40
发表于 1 小时前 | 显示全部楼层
浏览器手势我都不用,这么多手势,记不住。
回复

使用道具 举报

8

主题

133

回帖

712

积分

高级会员

积分
712
金钱
571
HASS币
0
发表于 1 小时前 | 显示全部楼层
厉害,未来可期
回复

使用道具 举报

15

主题

551

回帖

3163

积分

论坛元老

积分
3163
金钱
2597
HASS币
0
发表于 半小时前 | 显示全部楼层
手势会不会更尬,
回复

使用道具 举报

3

主题

198

回帖

2063

积分

金牌会员

积分
2063
金钱
1862
HASS币
10
发表于 19 分钟前 | 显示全部楼层
厉害呀,正好可以试试
回复

使用道具 举报

194

主题

2975

回帖

9678

积分

元老级技术达人

积分
9678
金钱
6494
HASS币
80
发表于 10 分钟前 | 显示全部楼层
本帖最后由 bugensui 于 2025-12-3 12:11 编辑

我很早就实现了ha的手势,我是直接用ha的加载项实现的,目前可以识别 👍, 👎, ✌️, ☝️, ✊, 👋, 🤟,这几个手势,我是放在离家场景触发用,没有大规模部署,因为手势太多,记不住,我入户门这里有平板上墙,平板有前置摄像头,出门之前,在平板前做固定手势,就可以触发离家

不过手势也有优势,可以弥补特殊场景,另外手势太多其实也不好,真的记不住,3个左右的手势还行,在多了。真的记不住,
回复

使用道具 举报

79

主题

623

回帖

3205

积分

论坛元老

积分
3205
金钱
2498
HASS币
0
发表于 3 分钟前 | 显示全部楼层
要用gpu?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian ( 晋ICP备17001384号-1 )

GMT+8, 2025-12-3 12:12 , Processed in 0.202203 second(s), 8 queries , MemCached On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表