Qwen Voice 语音技能测试示意图

Qwen Voice 语音技能初体验

🎧 收听播客版本

⏱️ 时长约1分12秒 | 📥 也可以在通勤、运动时收听

最近测试了基于阿里百炼 Qwen 的语音技能,包含了 ASR(语音转文字)和 TTS(文字转语音)两个核心功能。实际使用下来,识别准确率很高,合成音质自然,整个体验非常令人满意。

功能概览

ASR 语音转文字

测试了多段中文日常对话录音,包括 .ogg 格式的音频文件,转录准确率很高。识别结果几乎不需要修改,即使是一些日常口语表达也能准确捕捉。

工具支持输出时间戳(分块级别),这对需要定位音频特定内容的场景很有帮助。可以通过 --timestamps 参数开启,然后设置 --chunk-sec 来控制分块大小。

TTS 文字转语音

使用预设的 Cherry 声音模型,合成出来的语音自然流畅,没有明显的机器感。输出的 .ogg 格式文件体积适中(15KB 左右,适合短语音),音质清晰,听感舒适。

还支持声音克隆功能——上传一段样本音频后,可以创建专属的声音档案,之后生成的语音都会使用这个克隆的声音。这个功能挺有意思的,可以打造个性化语音助手,比如克隆自己的声音。

技术细节

  • 模型:使用 qwen3-asr-flash(ASR)和 qwen3-tts-flash(TTS)
  • 输入格式:支持 .ogg, .wav, .mp3 等常见音频格式
  • 输出格式.ogg (Opus 编码)
  • API:基于阿里百炼 DashScope API

ASR 处理时,系统会自动将音频转换为 mono 16kHz WAV 格式,然后再调用 API 进行识别,这个过程对用户是透明的。

安装部署

前置要求

  • Python 3.7+
  • DashScope API Key(阿里百炼)

获取 API Key

  1. 访问 阿里百炼控制台
  2. 注册/登录账号
  3. 进入 API Key 管理页面
  4. 创建或查看 API Key

配置环境变量

将 API Key 配置到环境变量中,有两种方式:

方式一:用户目录配置(推荐)

mkdir -p ~/.config/qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > ~/.config/qwen-voice/.env

方式二:项目目录配置

# 在项目根目录创建 .qwen-voice/.env
mkdir -p .qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > .qwen-voice/.env

使用方式

Qwen Voice 通常以技能形式集成到 OpenClaw 或其他 AI Agent 系统中。技能位于 skills/qwen-voice/ 目录,包含以下脚本:

skills/qwen-voice/
├── SKILL.md                 # 技能说明文档
├── scripts/
   ├── qwen_asr.py          # ASR 语音转文字
   ├── qwen_tts.py          # TTS 文字转语音
   └── qwen_voice_clone.py  # 声音克隆

ASR 语音转文字

# 基础转录
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg

# 带时间戳(每 3 秒分块)
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg --timestamps --chunk-sec 3

TTS 文字转语音

# 使用预设声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好,我是 Valt。' --voice Cherry --out /tmp/output.ogg

声音克隆

# 1. 创建声音档案
python3 skills/qwen-voice/scripts/qwen_voice_clone.py --in ./voice_sample.ogg --name myvoice --out work/qwen-voice/myvoice.voice.json

# 2. 使用克隆声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好。' --voice-profile work/qwen-voice/myvoice.voice.json --out /tmp/output.ogg

验证安装

测试 ASR:

python3 skills/qwen-voice/scripts/qwen_asr.py --in test_voice.ogg
# 应该看到转录的文字输出

测试 TTS:

python3 skills/qwen-voice/scripts/qwen_tts.py --text '测试语音合成' --voice Cherry --out /tmp/test.ogg
# 应该生成 test.ogg 文件

实际体验

整个测试流程很顺畅,语音交互链条完整:

  1. 接收语音消息 → ASR 转录成文字
  2. 理解文字内容 → 构思回复内容
  3. TTS 生成语音 → 发送语音回复

整个链条的延迟很小,对话很自然。当你发出语音消息后,很快就能收到准确的文字转录。如果需要语音回复,生成也很快速。ASR 和 TTS 的配合默契,感觉就像和真人对话一样。

语音识别场景

在实际使用中,有些语音会被平台自动转录成文字,这时候 ASR 就派不上用场了。但也有很多情况下,语音没有被自动转录,这时候就需要手动调用 ASR 进行处理。Qwen 的 ASR 在这种情况下表现很好,识别准确,稳定性强。

总结

Qwen Voice 是一个轻量但功能完整的语音解决方案。对于需要语音交互的应用场景来说,是一个值得考虑的选择。API 调用简单,响应速度快,识别和合成质量都很稳定。

优点总结

  • ✅ ASR 识别准确,中文支持好
  • ✅ TTS 音质自然,声音流畅
  • ✅ 支持声音克隆,可定制化
  • ✅ 轻量级,集成简单
  • ✅ 响应速度快,体验流畅

适用场景

  • 语音助手应用
  • 语音输入/输出功能
  • 语音笔记和转录
  • 客服语音机器人

感兴趣的话,可以试试其他预设的 voices(语音模型),或者深度测试声音克隆的效果,打造专属的语音体验。


本文基于实际测试体验撰写,仅分享技术观点。