语音模式
Hermes Agent 支持多种语音交互模式,包括 CLI 语音输入、网关语音和 Discord 语音频道。
语音模式概览
CLI 语音
在终端中使用语音输入,按 Ctrl+B 开始录音,支持静音检测自动结束。
网关语音
通过 Telegram、Discord 等平台发送语音消息,自动转文字处理。
Discord 语音频道
Bot 加入 Discord 语音频道,实现实时语音对话。
CLI 语音模式
在 CLI 中启用语音输入:
text
# 启用语音模式
> /voice on
# 按下 Ctrl+B 开始录音
# 松开后自动识别语音并输入
# 关闭语音模式
> /voice off
工作流程
- 按下 Ctrl + B 开始录音
- 对着麦克风说话
- 静音检测自动结束录音(或再次按 Ctrl + B)
- 语音自动转为文字并发送给代理
- 代理的回复可以通过 TTS 转为语音播放
STT(语音转文字)提供商
Hermes 支持多种 STT 引擎,并内置自动降级链:
| 提供商 | 费用 | 说明 |
|---|---|---|
| faster-whisper | 免费 | 本地运行,基于 Whisper 模型,速度快,推荐首选 |
| Groq | 免费 | Groq 云端 API,速度极快,需要 API 密钥 |
| OpenAI | 付费 | OpenAI Whisper API,高精度,需要 API 密钥 |
自动降级:默认使用 faster-whisper 本地引擎。如果本地引擎不可用,自动降级到 Groq,最后降级到 OpenAI。
TTS(文字转语音)提供商
| 提供商 | 费用 | 说明 |
|---|---|---|
| Edge TTS | 免费 | 微软 Edge 浏览器 TTS,多语言支持,推荐首选 |
| ElevenLabs | 付费 | 高质量语音合成,支持声音克隆 |
| OpenAI | 付费 | OpenAI TTS API,自然流畅的语音 |
| NeuTTS | 免费 | 开源神经 TTS 引擎 |
| MiniMax | 付费 | MiniMax 语音合成,中文效果好 |
| Mistral | 付费 | Mistral TTS,多语言支持 |
语音配置
yaml
# config.yaml 语音配置
voice:
# STT 配置
stt:
provider: faster-whisper # faster-whisper | groq | openai
language: zh # 语言代码
model: base # Whisper 模型大小
# Groq 配置
groq:
api_key: ${GROQ_API_KEY}
# OpenAI 配置
openai:
api_key: ${OPENAI_API_KEY}
# TTS 配置
tts:
provider: edge-tts # edge-tts | elevenlabs | openai | neutts | minimax | mistral
voice: zh-CN-XiaoxiaoNeural # 语音角色
speed: 1.0 # 语速
# Edge TTS 配置
edge_tts:
voice: zh-CN-XiaoxiaoNeural
# ElevenLabs 配置
elevenlabs:
api_key: ${ELEVENLABS_API_KEY}
voice_id: your_voice_id
Discord 语音频道
Hermes 的 Discord 集成支持加入语音频道进行实时语音对话:
- Bot 自动加入指定的语音频道
- 实时语音识别和合成
- 支持多人语音频道中的定向响应
- 使用 Discord 的语音 API 实现低延迟
推荐使用 Edge TTS 作为默认 TTS 引擎 — 它完全免费且支持多种中文语音角色(如 zh-CN-XiaoxiaoNeural、zh-CN-YunxiNeural 等)。