找回密码
 立即注册
搜索
查看: 9563|回复: 52

[技术探讨] 本地语音实测来围观了,友情提示提前准备GPU卡(已加装3060)

[复制链接]

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-28 16:16:46 | 显示全部楼层
楼主请教下,唤醒词在整套流程是什么定位,我一直没搞明白,点assist入口后,或者点击语音直接说“打开客厅灯”,为什么HA里面会有唤醒词这个逻辑。
回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-28 22:19:02 | 显示全部楼层
duanyudan123 发表于 2024-3-28 22:11
唤醒的实现就是某个麦克风一直处于待命状态。生成唤醒词的模型时候会排除掉所有不是这个词汇的对象。只保 ...

这个我明白,我想表达的是你的麦克风为什么能随时待命,还和HA关联,可能问的比较白痴
回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-30 20:55:59 | 显示全部楼层
中文内容准确率不高的原因是因为tiny模型太小了,切换到medium 识别率非常准确,目前是在nvidia 显卡下跑的。拿了docker的书直接念的,每个字都很准。
2024-03-30 20:45:28,586 [INFO]Processing audio with duration 00:11.070
2024-03-30 20:45:30,362 [INFO]如果说主机时代大家比拼的是单个服务器物理性能 那么在云时代最为看重的则是 凭借虚拟化技术所构建的集群处理能力


分享下hugging-face的镜像网站,和原whisper的模型仓库。
https://hf-mirror.com/Systran试了好几个模型,tiny,medium,还下载了Systran/faster-distil-whisper-large-v2,输出给你中文语音直接翻译成英文,而且还很准。有显卡设备的话,以后感觉替换各种国产精灵,不用绕来绕去了。

回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-30 20:57:07 | 显示全部楼层
本帖最后由 demacia 于 2024-3-30 21:19 编辑

感觉以后allinone的主机还得在配张显卡 大模型是叼
ha控制和语音版的本地chatgpt

1

1

回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-30 23:40:08 | 显示全部楼层
silang521 发表于 2024-3-30 23:00
你怎么调用的显卡?

直接拉作者源码,本地宿主机有cudnn的环境,本地直接启
回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-31 00:01:14 | 显示全部楼层
本帖最后由 demacia 于 2024-3-31 00:04 编辑
silang521 发表于 2024-3-30 23:51
麻烦能不能分享相关的代码?
python3 -m wyoming_faster_whisper \
        --uri 'tcp://0.0.0.0:10300' \
    --data-dir /data \
    --download-dir /data \
    --local_files_only=True \
    --language zh \
    --log-format='%(asctime)s [%(levelname)s]%(message)s' \
    --device=cuda \
    --model medium \
    --initial-prompt '以下是普通话的句子'


没改代码,只是提了个PR,让有模型缓存的不在请求网络拉取和检查模型,启动快点。
https://github.com/hass-demacia/ ... 85aa9569ab1e06fef11。有网络开代理的可以忽略这个pr。
正常逻辑,应该是基于nvdia的cudnn的基础镜像打一个镜像,应该也是可以的,只不过作者项目里面没有维护Dockerfile,就不强求docker了。
回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-31 00:26:15 | 显示全部楼层
duanyudan123 发表于 2024-3-31 00:23
目前像样的GPU才是正解。要不老外一口一个cuda,听见就来气。等待有大佬拿老黄的集群训练个针对性的中文 ...

是的,容器版本只提供--gpu参数没用,必须还要指定whisper的参数--device。不然还是cpu跑,medium模型9400F,也比较慢。
回复

使用道具 举报

25

主题

206

回帖

1095

积分

金牌会员

007潜水了

积分
1095
金钱
864
HASS币
0
发表于 2024-3-31 17:47:39 | 显示全部楼层
ghcr.io/hass-demacia/wyoming_faster_whisper:dev

今天直接基于nvidia的基础镜像,打了cuda12的版本的镜像,个人自测没问题。有显卡的老板们可以尝尝。

(nvidia显卡驱动可能需要更新)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Hassbian ( 晋ICP备17001384号-1 )

GMT+8, 2025-6-28 12:37 , Processed in 0.174205 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表