『瀚思彼岸』» 智能家居技术论坛

 找回密码
 立即注册
查看: 1245|回复: 18

[技术探讨] 开源项目AI Sphere Butler打造全方位服务用户生活的AI全能管家

[复制链接]

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
发表于 2025-2-11 21:34:47 | 显示全部楼层 |阅读模式
本帖最后由 玩AI的辣条哥 于 2025-2-22 17:02 编辑

介绍
开源项目计划:AI Sphere Butler 打造全方位服务用户生活的AI全能管家——代号**“小粒”**(管家名称可以随意自定义)

GitHub地址:https://github.com/latiaoge/AI-Sphere-Butler

项目名称:AI Sphere Butler(创意和设计全球首创)

终极愿景:我们的目标是创造一个全方位服务于用户生活的AI全能管家——“小粒”。除了不具备物理形态外,“小粒”将提供与视频通话中真人管家几乎无异的体验,具备思考、情感交流、视觉、听觉以及模拟触觉反馈等能力,并能够在任何家庭和移动车辆的显示设备上自由呈现。其功能覆盖智能家居控制、情感陪伴、学习交流、健康管理、安全防护、个人购物、外出导航及酒店预订等多个方面。

为了实现 “小粒” 的终极愿景,我们决定将这个项目以开源的方式向全球开发者、研究者和技术爱好者开放,共同打造一个高度智能、情感化和人性化的数字人管家。我们相信,通过全球技术社区的力量和智慧,“小粒” 将成为用户生活中不可或缺的伙伴,为每个人提供更加贴近人性的陪伴与服务。



现在实现的功能都在metahuman-stream 分支上,主分支还没改造完成


DBAA2D1C-B18C-48b2-9151-6B68EB32DA89.png

以下是关于开源计划的详细说明,以及为什么它值得您加入共建。
为什么选择开源?

    集思广益,快速迭代:
        开源带来了社区协作的力量,全球开发者可以一起贡献代码、算法、设计和想法,推动项目以更快的速度迭代和发展。
        通过吸纳来自不同行业的经验和智慧,“小粒” 能够更好地适应复杂多样的用户需求和场景。

    透明与信任:
        开源让项目的开发过程完全透明,用户能够清晰了解 “小粒” 是如何构建和运行的。这种透明性不仅增强了用户的信任,还为项目的安全性和隐私保护提供了更高的保障。

    技术普惠:
        我们希望通过开源技术,降低准入门槛,让更多的人能够利用 “小粒” 的能力服务于更多场景,如教育、医疗、社会公益等。

    全球影响力:
        一项开源的项目,不仅仅是技术的合作,更是全球开发者共同追求创新目标的过程。共同打造 “小粒”,不仅是技术的突破,更是一种人类对智能化生活愿景的探索。

项目架构及规划

为了吸引更多的人参与,我们需要对项目架构进行清晰的描述,帮助开发者快速理解项目的核心模块,并找到适合他们贡献的切入点。
1. 项目模块化设计

“小粒” 的功能丰富,因此我们将其分为几个核心模块,每个模块独立开发并可协同工作:

    视觉交互模块(视觉与表情):
        任务:打造高度逼真的“虚拟形象”,实现面部表情动态、自然动作模拟及多设备适配。
        技术栈:Unity、Unreal Engine、三维建模(Blender)、OpenCV、MediaPipe。

    语音交互模块(听觉与语音合成):
        任务:搭建高精度语音识别、自然语言理解(NLU)和人类语音合成(TTS)系统。
        技术栈:Whisper、Coqui TTS、Vosk、Hugging Face Transformers。

    情感计算与心理支持模块:
        任务:通过情感分析理解用户情绪,并提供适当的心理互动或安慰。
        技术栈:情感分析模型(BERT、RoBERTa)、对话情感识别框架(OpenAI GPT,Rasa)。

    智能家居与物联网模块:
        任务:支持主流的智能家居协议(如 Zigbee、Z-Wave、Matter)和设备对接,实时控制和建议。
        技术栈:MQTT、OpenHAB、Home Assistant。

    学习与知识模块:
        任务:提供知识共享和学习支持服务,包括个性化推荐、语言学习助手等。
        技术栈:推荐算法、NLP工具(spaCy、fastText)、多语言模型(Google Translate API、DeepL)。

    健康与安全模块:
        任务:结合健康监测设备,提供健康建议、紧急响应服务。
        技术栈:可穿戴设备API(Apple HealthKit、Fitbit)、边缘计算、时序数据分析(InfluxDB)。

    跨平台兼容性模块:
        任务:确保 “小粒” 可在电视、平板、手机、车载设备等多种终端上呈现。
        技术栈:React Native、Flutter、WebRTC。
。。。。。。

欢迎感兴趣的朋友联系我们

#  开发计划

**一、虚拟管家模块**

    流式对话数字人(目前选用metahuman-stream)
        支持自然流畅的人机对话体验。
        提供虚拟形象和声音克隆功能、   方言对话,使数字人更具个性化。
   

    虚拟大脑LLM/MM-Model 或 Multimodal Model(目前选用微调Qwen2.5LLM )
        基于微调后的Qwen2.5大型语言模型,赋予数字人更深层次的理解和响应能力。
        支持自定义本地LLM以满足特定需求。

    唤醒模式
        通过特定关键词或短语激活系统,实现便捷的启动方式。

    身份识别(声纹识别、人脸识别)
        结合声纹识别与人脸识别技术确保用户的安全性和个性化服务。

    支持打断/追问
        允许用户在对话中随时提问或打断,提升交互灵活性和自然度。

    一键切换声音和形象
        提供简便的操作界面,让用户能够快速更换数字人管家的声音和外观。
   
    一键自定义换装
    提供简便的操作界面,让用户能够快速更换数字人管家的服装。
   


**二、声纹识别模块**

    实现高效的身份验证机制,增强系统的安全性和用户体验。
   

**三、人脸识别模块**

    提供额外的安全层,并支持个性化的用户服务。

**四、物联网联动模块(选用Home Assistant)**

    使用Home Assistant平台管理并控制家中的所有智能设备,实现智能家居的无缝连接。

**五、联网新闻播报模块**

    实时获取最新资讯,并以语音形式为用户播报重要新闻。

**六、互动反馈模块**

    触觉反馈:模拟真实世界的触觉感受,提升用户交互的真实感。
    嗅觉反馈:通过气味传感器模拟真实世界的闻气味,提升用户交互的真实感。
    距离反馈:通过超声波传感器模拟真实世界的距离远近和室内位置距离,提升用户交互的真实感。
   

**七、视觉模块(图像识别和OCR)**


    利用先进的图像处理技术进行物体识别和文字提取,支持多种应用场景。

**八、实时时间模块**

    提供准确的时间显示,帮助用户掌握当前时刻。

**九、实时日历模块**


    详细的日程安排,便于用户规划日常活动。

**十、事件提醒模块**


    及时的事件提醒功能,确保用户不会错过任何重要事项。

**十一、天气播报模块**


    根据地理位置提供详细的天气预报信息。

**十二、定位导航模块**


    支持地图浏览、路径规划等功能,方便用户的出行安排。

**十三、娱乐模块**

    整合音乐播放功能,让用户享受个性化的音乐体验。
    可以让管家唱歌跳舞表演。
   可以让管家一起看电视电影互动。
可以让管家一起玩游戏互动


**十四、网店购物模块**


    提供便捷的商品搜索、比价、下单等一站式购物服务。
    提供点外卖等服务


**十五、健康监管模块**

    监测用户的健康数据,如心率、睡眠质量等,并给出相应的健康建议。

**十六、安防模块**

    通过摄像头实时监控家庭安全状况,异常情况即时报警。

**十七、管家记忆模块**

    能够记住用户的偏好、历史交互和情感状态,提供更加个性化和贴心的服务,如同与一位熟悉的老朋友互动般自然。

**十八、视频通话模块**

    支持高清视频通话,保持与家人朋友的紧密联系。

**十九、主人代理行为模块**

    可代表用户执行一些日常任务,如接听电话、社交互动等,极大提高生活效率。

**二十、情感识别模块**

    声音语调分析
        语调变化检测:通过分析用户的语音输入中的音高、节奏、强度等特征来判断其情绪状态,如快乐、悲伤、愤怒或平静。
        语境推理:不仅仅依赖于单个词语或句子的意义,而是考虑整个对话上下文,以便更准确地捕捉用户的情感倾向。

    脸部表情识别
        实时面部追踪:利用摄像头捕捉用户的脸部动作,并通过深度学习算法实时分析面部表情,包括微笑、皱眉、眼神移动等细节。
        情感分类:根据面部肌肉的变化模式,自动识别出诸如高兴、惊讶、困惑、生气等多种情感类别。

    综合情感评估
        多模态融合:结合声音语调和脸部表情的数据进行综合分析,提供一个更为全面和准确的情感评估结果。
        个性化调整:随着时间的推移,“小粒”会逐渐学习并适应每个用户的独特表达方式,从而提高情感识别的准确性。


**未来开发计划**

1.实体机器人管控模块

目标:实现对实体机器人的远程控制与管理,使“小粒”不仅能作为虚拟助手存在,还能通过实体机器人执行物理世界中的任务。

    远程操控功能
        允许用户通过“小粒”直接控制实体机器人进行各种操作,如清洁、搬运物品等。

    状态监控与反馈
        提供实时的状态更新和视频反馈,让用户可以随时了解机器人当前的工作状态和环境情况。

    自动化任务调度
        根据用户的日常需求和偏好设置,自动安排实体机器人的工作日程,例如定时打扫房间或巡逻检查家庭安全状况。

    集成智能分析
        利用内置传感器收集的数据,“小粒”能够分析并优化机器人的行为模式,提高效率和服务质量。

2.无线脑机交互模块

目标:探索和发展无线脑机接口(BCI)技术,旨在为用户提供一种全新的交互方式,突破传统输入方法的限制。

    基本思想传输
        开发基础级别的脑电信号识别技术,允许用户通过思考来发送简单的指令给“小粒”,比如打开灯、播放音乐等。

    情感识别与响应
        进一步深化情感计算能力,不仅基于语音和面部表情,还能通过脑电波变化来感知用户的情绪,并作出相应的反应。

    增强用户体验
        随着技术的进步,逐步增加复杂度更高的交互方式,如思维导航(通过想象目的地来指导导航系统)、意念书写等,极大地丰富用户的互动体验。

    隐私保护与伦理考量
        在推进技术创新的同时,严格遵守数据隐私法规,确保所有收集到的信息得到妥善处理。同时,积极探讨并解决相关伦理问题,保证技术发展符合社会价值观。

# 项目开发时间轴(2023.10-2025.1)

2023年10月
项目萌芽
"既然ChatGPT这么聪明,数字人也能动了,做个数字人虚拟管家应该可行!"
• 核心灵感:让AI管家像《钢铁侠》里的贾维斯

2023年12月
画设计图
• 定下三件套:对话大脑(GPT) + 数字人身体 + 智能家居控制
• 技术路线:先做电脑版,再考虑手机APP

2024年1月
正式开工
• 程序员老汪搞定第一个能聊天的管家原型
• 设计师小汪做出2D真人版虚拟数字人形象

2024年7月
选数字人框架
• 测试3种方案后选中MetaHuman-Stream

2024年9月
连智能家居
• 接入HomeAssistant系统
• 教会管家开灯/调空调:"小粒,我回家了!" → 自动开客厅灯
• 踩坑:不同品牌设备兼容问题折腾2周

2024年12月
功能爆发月
• 12日 升级TTS语音合成:让管家能模仿台湾腔
• 19日 开发网页版:手机在外面也能远程唤醒管家
• 26日 添加天气预报:"今天杭州降温,记得穿秋裤!"

2025年1月
进阶功能
• 2日 语音播热搜:每天早8点自动念头条新闻
• 4日 触觉反馈:摸屏幕数字人管家身体会有反馈说话
• 7日 视觉识别:摄像头认出画面内容和文字
• 12日 备忘提醒:设置吃药提醒被老妈点赞
• 13日 门锁联动:开门时管家会有几十种不同不带重复的"欢迎回家"欢迎语
• 18日 记忆升级:记得主人前几天喝咖啡不加糖
• 24日 导航功能:说"导航到苏州"→路程播报和规划路程

更多功能还在进行中,等你们一起来创造。。。。。

2023.10  → 2023.12  → 2024.01  
2024.07 → 2024.09 → 2024.12  
2025.01 → 2025.01 → 2025.01



#  目前已开发功能展示


**一、虚拟管家模块**

    流式对话数字人(目前选用metahuman-stream)
      
    虚拟大脑LLM/MM-Model 或 Multimodal Model(目前选用微调Qwen2.5LLM )
   
    方言对话(未开发)

    唤醒模式 (未开发)
   
    身份识别(声纹识别、人脸识别)(未开发)
   
    支持打断/追问(未开发)
        允许用户在对话中随时提问或打断,提升交互灵活性和自然度。

    一键切换声音和形象(未开发)
        提供简便的操作界面,让用户能够快速更换数字人的声音和外观。
   
    一键自定义换装(未开发)
    提供简便的操作界面,让用户能够快速更换数字人管家的服装。


**二、声纹识别模块**

   (未开发)
   

**三、人脸识别模块**

(未开发)

**四、物联网联动模块(选用Home Assistant、MQTT)**


已开发实现基础功能










**五、联网新闻播报模块**


已开发实现基础功能



**六、互动反馈模块**

触觉反馈,已开发实现基础功能




嗅觉反馈:(未开发)
距离反馈:(未开发)

**七、视觉模块(图像识别和OCR)**

已开发实现基础功能




黑天鹅)]


**八、实时时间模块**


已开发实现基础功能





**九、实时日历模块**

已开发实现基础功能

**十、事件提醒模块**


已开发实现基础功能

**十一、天气播报模块**

已开发实现基础功能

**十二、定位导航模块**

已开发实现基础功能










**十三、娱乐模块**

(未开发)

**十四、网店购物模块**

(未开发)

**十五、健康监管模块**

(未开发)

**十六、安防模块**

(未开发)

**十七、管家记忆模块**

已开发实现基础功能

**十八、视频通话模块**

(未开发)

**十九、主人代理行为模块**

(未开发)

**二十、情感识别模块**

   (未开发)


**未来开发计划**


(未开发)

可承载硬件设备(任何屏幕上)
screenshot_2025-02-22_10-31-54.png screenshot_2025-02-22_10-17-29.png D1E4910C-F719-4d59-A4B6-3034DD204F4A.png BC3BAC38-4561-4ae8-B921-349A3A0B2CBA.png screenshot_2025-02-22_16-59-50.png

4cecd0277beba4e05d9f3bb6647f9289.jpeg

评分

参与人数 3金钱 +15 收起 理由
ojbkxc + 2 我相信,这个愿景会实现的,另外,其实可以.
wdndltg + 5
summ99111 + 8 论坛有你更精彩!

查看全部评分

回复

使用道具 举报

14

主题

1523

帖子

4843

积分

论坛元老

Rank: 8Rank: 8

积分
4843
金钱
3320
HASS币
0
发表于 2025-2-11 22:37:52 | 显示全部楼层
这个牛逼了。
回复

使用道具 举报

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
 楼主| 发表于 2025-2-12 11:19:05 | 显示全部楼层

欢迎大佬们加入
回复

使用道具 举报

3

主题

21

帖子

207

积分

中级会员

Rank: 3Rank: 3

积分
207
金钱
186
HASS币
0
发表于 2025-2-12 15:41:49 | 显示全部楼层
已私信
回复

使用道具 举报

2

主题

65

帖子

565

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
565
金钱
500
HASS币
0
发表于 2025-2-12 16:21:22 | 显示全部楼层
啥情况,不直接分享玩法?
回复

使用道具 举报

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
 楼主| 发表于 2025-2-12 16:37:12 | 显示全部楼层
admin 发表于 2025-2-12 16:21
啥情况,不直接分享玩法?

大佬莫急,都要分享,目前刚开源,模块部分比较繁杂,在整理慢慢上传github,耐心等待
回复

使用道具 举报

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
 楼主| 发表于 2025-2-13 21:04:18 | 显示全部楼层
回复

使用道具 举报

2

主题

159

帖子

1355

积分

金牌会员

Rank: 6Rank: 6

积分
1355
金钱
1196
HASS币
0
发表于 2025-2-13 21:48:42 | 显示全部楼层
但看列出的这些模块感觉就很牛,同时项目难度也不小啊,前有小米开源,后有DeepSeek开源,这势头今年是国产开源AI爆发的一年吗?楼主加油啊,这项目前景一片光明啊。
回复

使用道具 举报

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
 楼主| 发表于 2025-2-14 10:15:14 | 显示全部楼层
qjrxsoft 发表于 2025-2-13 21:48
但看列出的这些模块感觉就很牛,同时项目难度也不小啊,前有小米开源,后有DeepSeek开源,这势头今年是国产 ...

非常感谢您的鼓励和支持!确实,正如您所提到的,看到这些模块就觉得项目十分强大且充满挑战。尤其是在当前开源社区蓬勃发展,有诸多如小米、DeepSeek等优秀项目的背景下,这无疑为我们的探索提供了更多的灵感和动力。今年确实是国产开源AI爆发的一年,这也激励着我们更加努力地推进这个项目。

我们坚信这个项目有着广阔的前景,同时也深知实现这一目标需要大家共同的努力和智慧。所以真诚地希望感兴趣的朋友们也能参与到这个项目中来,一起为推动开源AI的发展贡献自己的力量。让我们携手共进,共创辉煌!
回复

使用道具 举报

2

主题

40

帖子

151

积分

注册会员

Rank: 2

积分
151
金钱
111
HASS币
0
 楼主| 发表于 2025-2-15 18:14:41 | 显示全部楼层
github 已更新源代码
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian

GMT+8, 2025-3-4 21:56 , Processed in 0.972238 second(s), 35 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表