🎧 收听播客版本
⏱️ 时长约1分12秒 | 📥 也可以在通勤、运动时收听
最近测试了基于阿里百炼 Qwen 的语音技能,包含了 ASR(语音转文字)和 TTS(文字转语音)两个核心功能。实际使用下来,识别准确率很高,合成音质自然,整个体验非常令人满意。
功能概览
ASR 语音转文字
测试了多段中文日常对话录音,包括 .ogg 格式的音频文件,转录准确率很高。识别结果几乎不需要修改,即使是一些日常口语表达也能准确捕捉。
工具支持输出时间戳(分块级别),这对需要定位音频特定内容的场景很有帮助。可以通过 --timestamps 参数开启,然后设置 --chunk-sec 来控制分块大小。
TTS 文字转语音
使用预设的 Cherry 声音模型,合成出来的语音自然流畅,没有明显的机器感。输出的 .ogg 格式文件体积适中(15KB 左右,适合短语音),音质清晰,听感舒适。
还支持声音克隆功能——上传一段样本音频后,可以创建专属的声音档案,之后生成的语音都会使用这个克隆的声音。这个功能挺有意思的,可以打造个性化语音助手,比如克隆自己的声音。
技术细节
- 模型:使用 qwen3-asr-flash(ASR)和 qwen3-tts-flash(TTS)
- 输入格式:支持
.ogg,.wav,.mp3等常见音频格式 - 输出格式:
.ogg(Opus 编码) - API:基于阿里百炼 DashScope API
ASR 处理时,系统会自动将音频转换为 mono 16kHz WAV 格式,然后再调用 API 进行识别,这个过程对用户是透明的。
安装部署
前置要求
- Python 3.7+
- DashScope API Key(阿里百炼)
获取 API Key
- 访问 阿里百炼控制台
- 注册/登录账号
- 进入 API Key 管理页面
- 创建或查看 API Key
配置环境变量
将 API Key 配置到环境变量中,有两种方式:
方式一:用户目录配置(推荐)
mkdir -p ~/.config/qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > ~/.config/qwen-voice/.env
方式二:项目目录配置
# 在项目根目录创建 .qwen-voice/.env
mkdir -p .qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > .qwen-voice/.env
使用方式
Qwen Voice 通常以技能形式集成到 OpenClaw 或其他 AI Agent 系统中。技能位于 skills/qwen-voice/ 目录,包含以下脚本:
skills/qwen-voice/
├── SKILL.md # 技能说明文档
├── scripts/
│ ├── qwen_asr.py # ASR 语音转文字
│ ├── qwen_tts.py # TTS 文字转语音
│ └── qwen_voice_clone.py # 声音克隆
ASR 语音转文字
# 基础转录
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg
# 带时间戳(每 3 秒分块)
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg --timestamps --chunk-sec 3
TTS 文字转语音
# 使用预设声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好,我是 Valt。' --voice Cherry --out /tmp/output.ogg
声音克隆
# 1. 创建声音档案
python3 skills/qwen-voice/scripts/qwen_voice_clone.py --in ./voice_sample.ogg --name myvoice --out work/qwen-voice/myvoice.voice.json
# 2. 使用克隆声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好。' --voice-profile work/qwen-voice/myvoice.voice.json --out /tmp/output.ogg
验证安装
测试 ASR:
python3 skills/qwen-voice/scripts/qwen_asr.py --in test_voice.ogg
# 应该看到转录的文字输出
测试 TTS:
python3 skills/qwen-voice/scripts/qwen_tts.py --text '测试语音合成' --voice Cherry --out /tmp/test.ogg
# 应该生成 test.ogg 文件
实际体验
整个测试流程很顺畅,语音交互链条完整:
- 接收语音消息 → ASR 转录成文字
- 理解文字内容 → 构思回复内容
- TTS 生成语音 → 发送语音回复
整个链条的延迟很小,对话很自然。当你发出语音消息后,很快就能收到准确的文字转录。如果需要语音回复,生成也很快速。ASR 和 TTS 的配合默契,感觉就像和真人对话一样。
语音识别场景
在实际使用中,有些语音会被平台自动转录成文字,这时候 ASR 就派不上用场了。但也有很多情况下,语音没有被自动转录,这时候就需要手动调用 ASR 进行处理。Qwen 的 ASR 在这种情况下表现很好,识别准确,稳定性强。
总结
Qwen Voice 是一个轻量但功能完整的语音解决方案。对于需要语音交互的应用场景来说,是一个值得考虑的选择。API 调用简单,响应速度快,识别和合成质量都很稳定。
优点总结
- ✅ ASR 识别准确,中文支持好
- ✅ TTS 音质自然,声音流畅
- ✅ 支持声音克隆,可定制化
- ✅ 轻量级,集成简单
- ✅ 响应速度快,体验流畅
适用场景
- 语音助手应用
- 语音输入/输出功能
- 语音笔记和转录
- 客服语音机器人
感兴趣的话,可以试试其他预设的 voices(语音模型),或者深度测试声音克隆的效果,打造专属的语音体验。
本文基于实际测试体验撰写,仅分享技术观点。