『瀚思彼岸』» 智能家居技术论坛

 找回密码
 立即注册
查看: 511|回复: 11

[智能音箱] 好像没什么人提用GPT-SoVITS做tts?

[复制链接]

1

主题

7

帖子

50

积分

注册会员

Rank: 2

积分
50
金钱
43
HASS币
0
发表于 2025-2-21 02:00:54 | 显示全部楼层 |阅读模式
本帖最后由 hi94740 于 2025-2-21 02:02 编辑

年后因为deepseek的风潮就尝试了一下本地部署llm,发现效果还不错,于是本着手上有锤子那就要找钉子砸的心态,尝试了ha的llm语音助手,还以此为借口趁着国补买了台m4 Mac mini,换掉了感觉有点不堪重负的树莓派4b
研究的时候发现,语音助手的组件(我只研究本地的,所以edgetts这种在线的就不在考虑范围内了)里对中文最不友好的居然是tts,其他的用官方推荐的东西都能解决,唯有tts,很多不能说不支持中文吧,只能说中文听起来惨不忍睹(官方推荐的piper,网上搜到的bark)
这个22年发的addon试过了,zh_baker这个模型听起来还行,但这个模型完全说不了中文以外的一点东西……字母都不行
这个帖子太新了没来得及试,效果也许更好一些
但我已经发现并且尝试了GPT-SoVITS,效果非常好,感觉是不需要换了,m4的cpu推理速度还行
网上没搜到接入ha的插件,所以自己写了个转MaryTTS API的服务器接入(不会python,不然就自己改个插件省去中间商了,Wyoming Protocol也试过,我用nodejs写的tts服务器不知道为什么总是有杂音所以放弃了)
可以看看效果(用的原神诺艾尔模型):

因为我现在的接入方案比较潦草(nodejs服务器+修改版MaryTTS集成),发出来怕是也不适合大家,就不发了,还是期待懂python的大佬写个更优雅的接入方案出来吧


回复

使用道具 举报

14

主题

1521

帖子

4839

积分

论坛元老

Rank: 8Rank: 8

积分
4839
金钱
3318
HASS币
0
发表于 2025-2-21 08:52:07 | 显示全部楼层
延迟太高了吧
回复

使用道具 举报

1

主题

7

帖子

50

积分

注册会员

Rank: 2

积分
50
金钱
43
HASS币
0
 楼主| 发表于 2025-2-21 11:37:40 | 显示全部楼层

因为环境比较嘈杂,实际上“请稍等”是停止录音开始处理的提示音,很大一部分延迟是判断停止录音的时间,stt我用的是官方推荐的faster-whisper,不知道换个别的会不会好点,没试过
回复

使用道具 举报

164

主题

2642

帖子

8170

积分

元老级技术达人

积分
8170
金钱
5523
HASS币
30
发表于 2025-2-21 12:40:14 | 显示全部楼层
GPT-SoVITS收费不,可以离线部署吗,不知道tts的速度怎么样,离线部署的几个速度都很慢,短文本还行,长点,就要等会才有结果
回复

使用道具 举报

1

主题

7

帖子

50

积分

注册会员

Rank: 2

积分
50
金钱
43
HASS币
0
 楼主| 发表于 2025-2-21 13:21:15 | 显示全部楼层
bugensui 发表于 2025-2-21 12:40
GPT-SoVITS收费不,可以离线部署吗,不知道tts的速度怎么样,离线部署的几个速度都很慢,短文本还行,长点 ...

开源的,我就是本地部署的,GPT-SoVITS也不快,我用m4 cpu推理,几百字的也要花好几秒,如果用好点的n卡可能会快点,要快的话可能要么升级配置要么就不能选这种ai的tts了
回复

使用道具 举报

164

主题

2642

帖子

8170

积分

元老级技术达人

积分
8170
金钱
5523
HASS币
30
发表于 2025-2-21 14:13:41 | 显示全部楼层
hi94740 发表于 2025-2-21 13:21
开源的,我就是本地部署的,GPT-SoVITS也不快,我用m4 cpu推理,几百字的也要花好几秒,如果用好点的n卡 ...

几百字几秒钟已经很快了,。我的要求不高,如果在nas里。离线部署,50字左右的话,3秒可以完成,那我就满足了。因为智能家居里的tts播报,大多数,都是50个字以内,有部署连接不,我学习下。
回复

使用道具 举报

27

主题

1365

帖子

6162

积分

元老级技术达人

积分
6162
金钱
4772
HASS币
100
发表于 2025-2-21 15:35:05 | 显示全部楼层
tts 你用链接里贴的Sherpa Onnx框架已经很可以了。
单独中文没什么大问题,稍微差一点的是在中英混合的场景下
回复

使用道具 举报

1

主题

7

帖子

50

积分

注册会员

Rank: 2

积分
50
金钱
43
HASS币
0
 楼主| 发表于 2025-2-21 15:36:32 | 显示全部楼层
bugensui 发表于 2025-2-21 14:13
几百字几秒钟已经很快了,。我的要求不高,如果在nas里。离线部署,50字左右的话,3秒可以完成,那我就满 ...

抱歉是我说的有偏差了,刚才试了一下,一百多个字的天气情况文本,生成音频长度三十多秒的,就要花十秒了,五十字左右的试了一下要花4秒,当然这都是基于我的配置,你的配置不同的话时间可能也会不同
想试一下的话可以看看这个文档,考虑到你是在nas上部署可能要参考docker部署的方法,但这里不包括对接ha的程序,我是自己写了一个转发的服务器,需要的话我可以发,但如果前面我提到的其他tts你都在你的机器上尝试过了,而且速度很慢的话,我猜测GPT-SoVITS跑起来应该也不会快,你不如先试试跑起来效果如何
回复

使用道具 举报

164

主题

2642

帖子

8170

积分

元老级技术达人

积分
8170
金钱
5523
HASS币
30
发表于 2025-2-21 15:43:39 | 显示全部楼层
hi94740 发表于 2025-2-21 15:36
抱歉是我说的有偏差了,刚才试了一下,一百多个字的天气情况文本,生成音频长度三十多秒的,就要花十秒了 ...

谢谢大佬,我研究下。,所以你说几百个字合成几秒,我很吃惊,除非你上gpu,不然基本上可能性很小。
回复

使用道具 举报

24

主题

373

帖子

1513

积分

金牌会员

Rank: 6Rank: 6

积分
1513
金钱
1140
HASS币
0
发表于 2025-2-22 00:47:24 | 显示全部楼层
看演示的视频,声音很自然,和EdgeTTS差不多。但是速度比EdgeTTS还慢啊,这么慢还有必要离线 么。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian

GMT+8, 2025-3-4 19:07 , Processed in 0.468680 second(s), 31 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表