语音模式 - Hermes Agent 中文文档

首页 / 语音模式

语音模式概览

🖱

CLI 语音

在终端中使用语音输入，按 Ctrl+B 开始录音，支持静音检测自动结束。

💬

网关语音

通过 Telegram、Discord 等平台发送语音消息，自动转文字处理。

🎮

Discord 语音频道

Bot 加入 Discord 语音频道，实现实时语音对话。

CLI 语音模式

在 CLI 中启用语音输入：

text

# 启用语音模式
> /voice on

# 按下 Ctrl+B 开始录音
# 松开后自动识别语音并输入

# 关闭语音模式
> /voice off

工作流程

按下 Ctrl + B 开始录音
对着麦克风说话
静音检测自动结束录音（或再次按 Ctrl + B）
语音自动转为文字并发送给代理
代理的回复可以通过 TTS 转为语音播放

STT（语音转文字）提供商

Hermes 支持多种 STT 引擎，并内置自动降级链：

提供商	费用	说明
faster-whisper	免费	本地运行，基于 Whisper 模型，速度快，推荐首选
Groq	免费	Groq 云端 API，速度极快，需要 API 密钥
OpenAI	付费	OpenAI Whisper API，高精度，需要 API 密钥

ⓘ

自动降级：默认使用 faster-whisper 本地引擎。如果本地引擎不可用，自动降级到 Groq，最后降级到 OpenAI。

TTS（文字转语音）提供商

提供商	费用	说明
Edge TTS	免费	微软 Edge 浏览器 TTS，多语言支持，推荐首选
ElevenLabs	付费	高质量语音合成，支持声音克隆
OpenAI	付费	OpenAI TTS API，自然流畅的语音
NeuTTS	免费	开源神经 TTS 引擎
MiniMax	付费	MiniMax 语音合成，中文效果好
Mistral	付费	Mistral TTS，多语言支持

语音配置

yaml

# config.yaml 语音配置
voice:
  # STT 配置
  stt:
    provider: faster-whisper    # faster-whisper | groq | openai
    language: zh               # 语言代码
    model: base                # Whisper 模型大小

    # Groq 配置
    groq:
      api_key: ${GROQ_API_KEY}

    # OpenAI 配置
    openai:
      api_key: ${OPENAI_API_KEY}

  # TTS 配置
  tts:
    provider: edge-tts          # edge-tts | elevenlabs | openai | neutts | minimax | mistral
    voice: zh-CN-XiaoxiaoNeural  # 语音角色
    speed: 1.0                  # 语速

    # Edge TTS 配置
    edge_tts:
      voice: zh-CN-XiaoxiaoNeural

    # ElevenLabs 配置
    elevenlabs:
      api_key: ${ELEVENLABS_API_KEY}
      voice_id: your_voice_id

Discord 语音频道

Hermes 的 Discord 集成支持加入语音频道进行实时语音对话：

Bot 自动加入指定的语音频道
实时语音识别和合成
支持多人语音频道中的定向响应
使用 Discord 的语音 API 实现低延迟

💡

推荐使用 Edge TTS 作为默认 TTS 引擎 — 它完全免费且支持多种中文语音角色（如 zh-CN-XiaoxiaoNeural、zh-CN-YunxiNeural 等）。