语音模式概览

🖱

CLI 语音

在终端中使用语音输入,按 Ctrl+B 开始录音,支持静音检测自动结束。

💬

网关语音

通过 Telegram、Discord 等平台发送语音消息,自动转文字处理。

🎮

Discord 语音频道

Bot 加入 Discord 语音频道,实现实时语音对话。

CLI 语音模式

在 CLI 中启用语音输入:

text
# 启用语音模式
> /voice on

# 按下 Ctrl+B 开始录音
# 松开后自动识别语音并输入

# 关闭语音模式
> /voice off

工作流程

  1. 按下 Ctrl + B 开始录音
  2. 对着麦克风说话
  3. 静音检测自动结束录音(或再次按 Ctrl + B
  4. 语音自动转为文字并发送给代理
  5. 代理的回复可以通过 TTS 转为语音播放

STT(语音转文字)提供商

Hermes 支持多种 STT 引擎,并内置自动降级链:

提供商费用说明
faster-whisper免费本地运行,基于 Whisper 模型,速度快,推荐首选
Groq免费Groq 云端 API,速度极快,需要 API 密钥
OpenAI付费OpenAI Whisper API,高精度,需要 API 密钥

自动降级:默认使用 faster-whisper 本地引擎。如果本地引擎不可用,自动降级到 Groq,最后降级到 OpenAI。

TTS(文字转语音)提供商

提供商费用说明
Edge TTS免费微软 Edge 浏览器 TTS,多语言支持,推荐首选
ElevenLabs付费高质量语音合成,支持声音克隆
OpenAI付费OpenAI TTS API,自然流畅的语音
NeuTTS免费开源神经 TTS 引擎
MiniMax付费MiniMax 语音合成,中文效果好
Mistral付费Mistral TTS,多语言支持

语音配置

yaml
# config.yaml 语音配置
voice:
  # STT 配置
  stt:
    provider: faster-whisper    # faster-whisper | groq | openai
    language: zh               # 语言代码
    model: base                # Whisper 模型大小

    # Groq 配置
    groq:
      api_key: ${GROQ_API_KEY}

    # OpenAI 配置
    openai:
      api_key: ${OPENAI_API_KEY}

  # TTS 配置
  tts:
    provider: edge-tts          # edge-tts | elevenlabs | openai | neutts | minimax | mistral
    voice: zh-CN-XiaoxiaoNeural  # 语音角色
    speed: 1.0                  # 语速

    # Edge TTS 配置
    edge_tts:
      voice: zh-CN-XiaoxiaoNeural

    # ElevenLabs 配置
    elevenlabs:
      api_key: ${ELEVENLABS_API_KEY}
      voice_id: your_voice_id

Discord 语音频道

Hermes 的 Discord 集成支持加入语音频道进行实时语音对话:

💡

推荐使用 Edge TTS 作为默认 TTS 引擎 — 它完全免费且支持多种中文语音角色(如 zh-CN-XiaoxiaoNeuralzh-CN-YunxiNeural 等)。