本地语言助手基于Sherpa Onnx的Wyoming STT/TTS Addon无惧断网纯离线

z741554038 · 发表于 2025-3-3 14:25:05

本帖最后由 z741554038 于 2025-3-3 14:27 编辑

我是来交作业的

语音转文字听广东话的朋友可以尝试用我这个配置，但是我实测 TTS 广东话没有我喜欢听的，所以用广东话讲，同普通话说。

注意：STT 模型改成 zipformer 的形式，AI 一直是给我 from_zipformer 的配置，其实 Sherpa Onnx 没有这个表达。

配置如下：

language: zh-CN
speed: 1
stt_model: custom_stt_model
stt_use_int8_onnx_model: true
stt_thread_num: 3
tts_model: vits-melo-tts-zh_en
tts_thread_num: 3
tts_speaker_sid: 0
debug: true
custom_stt_model: sherpa-onnx-zipformer-cantonese-2024-03-13
custom_stt_model_eval: |-
  sherpa_onnx.OfflineRecognizer.from_transducer(      
    encoder="/stt-models/sherpa-onnx-zipformer-cantonese-2024-03-13/encoder-epoch-45-avg-35.int8.onnx",      
    decoder="/stt-models/sherpa-onnx-zipformer-cantonese-2024-03-13/decoder-epoch-45-avg-35.int8.onnx",      
    joiner="/stt-models/sherpa-onnx-zipformer-cantonese-2024-03-13/joiner-epoch-45-avg-35.int8.onnx",      
    tokens="/stt-models/sherpa-onnx-zipformer-cantonese-2024-03-13/tokens.txt",
    num_threads=3,
    decoding_method="greedy_search",
    provider="cpu",
    sample_rate=16000,
    feature_dim=80,
    debug=True
  )

如果对你有帮助，请给我一个赞！

lyf86822 · 发表于 2025-3-3 18:48:12

各位大佬，这集成太大了，ghcr.io拉不下来，有好用的另外镜像源吗？我用南大的镜像源直接返回unknown？
顺便问下，这个tts可以设置cache吗？

ptbsare · 发表于 2025-3-3 20:29:28

本帖最后由 ptbsare 于 2025-3-3 20:48 编辑

lyf86822 发表于 2025-3-3 18:48
各位大佬，这集成太大了，ghcr.io拉不下来，有好用的另外镜像源吗？我用南大的镜像源直接返回unknown？
顺 ...

tts的cache是homeassistant自行管理的，默认是有的，需要你手动清理tts缓存。使用homeassistant的这个服务:tts.clear_cache。具体参见官方文档。

ptbsare · 发表于 2025-3-3 20:30:26

z741554038 发表于 2025-3-3 14:25
[md]
我是来交作业的

感谢，已置顶

ptbsare · 发表于 2025-3-3 21:01:25

物联网不互联发表于 2025-2-16 17:41
我在树莓派上装的是HAOS，直接加载项安装的，刚重新安装0.2.9，还是一样问题，文字一长就无法播放语音
...

你好，这个现在查到应该是官方上游Wyoming协议的问题，就连官方的语音助手也有这个问题，具体可以参见下面这两个链接。需要上游解决。
https://github.com/home-assistant/core/issues/134910
https://github.com/home-assistant/addons/issues/3360

物联网不互联 · 发表于 2025-3-5 09:49:14

ptbsare 发表于 2025-3-3 21:01
你好，这个现在查到应该是官方上游Wyoming协议的问题，就连官方的语音助手也有这个问题，具体可以参见下 ...

感谢大佬解惑

ptbsare · 发表于 2025-3-10 21:18:43

更新V0.3.0：添加Openai兼容格式 TTS/STT 实验性支持，实现了两个接口 IP:10500/v1/audio/speech IP:10500/v1/audio/transcriptions

neqq3 · 发表于 2025-3-14 11:38:00

太好了，最近一直在找一个纯离线的语音docker

bugensui · 发表于 2025-3-14 14:53:10

ptbsare 发表于 2025-3-3 21:01
你好，这个现在查到应该是官方上游Wyoming协议的问题，就连官方的语音助手也有这个问题，具体可以参见下 ...

我之前跟你反馈的应该就是原因对吧，那为什么有些人反馈了。有些人就没有问题，包括楼主你自己。你也说没有遇到

ptbsare · 发表于 2025-3-15 16:25:04

bugensui 发表于 2025-3-14 14:53
我之前跟你反馈的应该就是原因对吧，那为什么有些人反馈了。有些人就没有问题，包括楼主你自己。你也说没 ...

不清楚，通信协议层面的问题，因使用的TCP通信并非HTTP，不同人的操作系统、硬件平台、网络环境配置以及使用的二进制库不一样，不能一概而论，没有深究过，目前是看到一些树莓派平台的类似问题，等待官方修复吧。

		自动登录	找回密码
密码			立即注册

[技术探讨] 本地语言助手基于Sherpa Onnx的Wyoming STT/TTS Addon无惧断网纯离线

配置如下：