本帖最后由 demacia 于 2024-3-31 17:40 编辑
HA官方推荐了本地tts,stt的集成方式。
HA core docker安装的,无法使用addons
查到资料可以单独拉起whisper,启动的参数
whisper
sudo docker run --name whisper -d -p 10300:10300 -v wyoming:/data rhasspy/wyoming-whisper --model tiny-int8 --language zh
不知道是不是whisper参数有问题,导致模型有问题?HA助手语音输入经常解析成繁体中文了
。
############################ 03-28 更新 ########
感谢 @silang521 大佬的提醒
作者两周前更新了支持 --initial-prompt 参数的暴露,有繁体问题的朋友可以试玩看看了
https://github.com/rhasspy/wyoming-faster-whisper/blob/master/CHANGELOG.md
。
############################ 03-29 更新 ########
繁体的问题虽然解决了 但现在有俩问题
1. 中文内容准确率不高
2. 不知道是不是加了init promot 导致带了些英文术语会出问题
######################### 03-30 更新 ########
中文内容准确率不高的原因是因为tiny模型太小了,切换到medium 识别率非常准确,目前是在nvidia 显卡下跑的。拿了docker的书直接念的,每个字都很准。
2024-03-30 20:45:28,586 [INFO]Processing audio with duration 00:11.070
2024-03-30 20:45:30,362 [INFO]如果说主机时代大家比拼的是单个服务器物理性能 那么在云时代最为看重的则是 凭借虚拟化技术所构建的集群处理能力
分享下hugging-face的镜像网站,和原whisper的模型仓库。
https://hf-mirror.com/Systran试了好几个模型,tiny,medium,还下载了Systran/faster-distil-whisper-large-v2,输出给你中文语音直接翻译成英文,而且还很准。有显卡设备的话,以后感觉替换各种国产精灵,不用绕来绕去了。
######################### 03-31 更新 ########
docker gpu启动方案:基于原作者的项目,打了nvidia的cuda12-cudnn8的版本镜像,有显卡的朋友可以试试。
ghcr.io/hass-demacia/wyoming_faster_whisper:dev
sudo docker run --gpus all --name whisper -d -p 10300:10300 \
-v wyoming:/data \
ghcr.io/hass-demacia/wyoming_faster_whisper:dev \
--language zh \
--log-format='%(asctime)s [%(levelname)s]%(message)s' \
--device=cuda \
--model medium \
--initial-prompt "以下是普通话的句子"
|