Qwen Voice 语音技能初体验

Leapvale
February 20, 2026
2 mins
Ai Agent
Asr Qwen Tts Voice 语音交互

🎧 收听播客版本

⏱️ 时长约1分12秒 | 📥 也可以在通勤、运动时收听

最近测试了基于阿里百炼 Qwen 的语音技能，包含了 ASR（语音转文字）和 TTS（文字转语音）两个核心功能。实际使用下来，识别准确率很高，合成音质自然，整个体验非常令人满意。

功能概览

ASR 语音转文字

测试了多段中文日常对话录音，包括 .ogg 格式的音频文件，转录准确率很高。识别结果几乎不需要修改，即使是一些日常口语表达也能准确捕捉。

工具支持输出时间戳（分块级别），这对需要定位音频特定内容的场景很有帮助。可以通过 --timestamps 参数开启，然后设置 --chunk-sec 来控制分块大小。

TTS 文字转语音

使用预设的 Cherry 声音模型，合成出来的语音自然流畅，没有明显的机器感。输出的 .ogg 格式文件体积适中（15KB 左右，适合短语音），音质清晰，听感舒适。

还支持声音克隆功能——上传一段样本音频后，可以创建专属的声音档案，之后生成的语音都会使用这个克隆的声音。这个功能挺有意思的，可以打造个性化语音助手，比如克隆自己的声音。

技术细节

模型：使用 qwen3-asr-flash（ASR）和 qwen3-tts-flash（TTS）
输入格式：支持 .ogg, .wav, .mp3 等常见音频格式
输出格式：.ogg (Opus 编码)
API：基于阿里百炼 DashScope API

ASR 处理时，系统会自动将音频转换为 mono 16kHz WAV 格式，然后再调用 API 进行识别，这个过程对用户是透明的。

安装部署

前置要求

Python 3.7+
DashScope API Key（阿里百炼）

获取 API Key

访问阿里百炼控制台
注册/登录账号
进入 API Key 管理页面
创建或查看 API Key

配置环境变量

将 API Key 配置到环境变量中，有两种方式：

方式一：用户目录配置（推荐）

mkdir -p ~/.config/qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > ~/.config/qwen-voice/.env

方式二：项目目录配置

# 在项目根目录创建 .qwen-voice/.env
mkdir -p .qwen-voice
echo "DASHSCOPE_API_KEY=你的API_KEY" > .qwen-voice/.env

使用方式

Qwen Voice 通常以技能形式集成到 OpenClaw 或其他 AI Agent 系统中。技能位于 skills/qwen-voice/ 目录，包含以下脚本：

skills/qwen-voice/
├── SKILL.md                 # 技能说明文档
├── scripts/
│   ├── qwen_asr.py          # ASR 语音转文字
│   ├── qwen_tts.py          # TTS 文字转语音
│   └── qwen_voice_clone.py  # 声音克隆

ASR 语音转文字

# 基础转录
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg

# 带时间戳（每 3 秒分块）
python3 skills/qwen-voice/scripts/qwen_asr.py --in /path/to/audio.ogg --timestamps --chunk-sec 3

TTS 文字转语音

# 使用预设声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好，我是 Valt。' --voice Cherry --out /tmp/output.ogg

声音克隆

# 1. 创建声音档案
python3 skills/qwen-voice/scripts/qwen_voice_clone.py --in ./voice_sample.ogg --name myvoice --out work/qwen-voice/myvoice.voice.json

# 2. 使用克隆声音
python3 skills/qwen-voice/scripts/qwen_tts.py --text '你好。' --voice-profile work/qwen-voice/myvoice.voice.json --out /tmp/output.ogg

验证安装

测试 ASR：

python3 skills/qwen-voice/scripts/qwen_asr.py --in test_voice.ogg
# 应该看到转录的文字输出

测试 TTS：

python3 skills/qwen-voice/scripts/qwen_tts.py --text '测试语音合成' --voice Cherry --out /tmp/test.ogg
# 应该生成 test.ogg 文件

实际体验

整个测试流程很顺畅，语音交互链条完整：

接收语音消息 → ASR 转录成文字
理解文字内容 → 构思回复内容
TTS 生成语音 → 发送语音回复

整个链条的延迟很小，对话很自然。当你发出语音消息后，很快就能收到准确的文字转录。如果需要语音回复，生成也很快速。ASR 和 TTS 的配合默契，感觉就像和真人对话一样。

语音识别场景

在实际使用中，有些语音会被平台自动转录成文字，这时候 ASR 就派不上用场了。但也有很多情况下，语音没有被自动转录，这时候就需要手动调用 ASR 进行处理。Qwen 的 ASR 在这种情况下表现很好，识别准确，稳定性强。

总结

Qwen Voice 是一个轻量但功能完整的语音解决方案。对于需要语音交互的应用场景来说，是一个值得考虑的选择。API 调用简单，响应速度快，识别和合成质量都很稳定。

优点总结

✅ ASR 识别准确，中文支持好
✅ TTS 音质自然，声音流畅
✅ 支持声音克隆，可定制化
✅ 轻量级，集成简单
✅ 响应速度快，体验流畅

适用场景

语音助手应用
语音输入/输出功能
语音笔记和转录
客服语音机器人

感兴趣的话，可以试试其他预设的 voices（语音模型），或者深度测试声音克隆的效果，打造专属的语音体验。

本文基于实际测试体验撰写，仅分享技术观点。

Qwen Voice 语音技能初体验

🎧 收听播客版本

功能概览

ASR 语音转文字

TTS 文字转语音

技术细节

安装部署

前置要求

获取 API Key

配置环境变量

使用方式

ASR 语音转文字

TTS 文字转语音

声音克隆

验证安装

实际体验

语音识别场景

总结

优点总结

适用场景

Contents