🧪 Skills

Qwen Asr Skill

Provides high-accuracy speech-to-text conversion supporting 22 Chinese dialects and 30 languages with automatic language detection, running on CPU.

v1.3.0
❤️ 0
⬇️ 92
👁 1
Share

Description

Qwen 方言语音识别 Skill - 极简版

基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务,支持 22 种中文方言和 30 种语言识别。

功能特性

  • 🎤 支持 22 种中文方言识别
  • 🌐 支持 30 种国际语言
  • 💻 CPU 端运行,无需 GPU
  • 🔍 自动语言检测
  • ⚡ 低延迟,高准确率
  • 📦 极简版:仅包含 0.6B 模型,无强制对齐功能

🗣️ 支持的中文方言

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语。

🚀 快速开始

安装

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

🔧 使用方式

安装并启用后,直接在 OpenClaw 中发送语音消息即可,系统会自动识别方言并转为文字。

📡 API 接口

POST /transcribe

音频转文字接口

请求参数:

  • audio:音频文件或 base64 编码的音频数据(必需)
  • language:指定语言/方言(可选,如:"四川话"、"粤语"等)
  • timestamps:是否返回时间戳(可选,默认 false)

响应示例:

{
  "success": true,
  "data": {
    "text": "识别结果文本",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

📊 性能指标

  • 推理速度:实时音频的 1.5-2 倍速(8 核 CPU)
  • 内存占用:6-8GB 运行时
  • 支持音频时长:最长 5 分钟
  • 方言识别 WER:<16%(平均)

🔍 极简版特点

与完整版相比,极简版(Minimal)的特点:

特性 极简版 完整版
模型大小 ~6GB ~6GB + ~2GB
强制对齐
时间戳
RAM 占用 6-8GB 6-10GB
适用场景 基础 ASR 需要时间戳的场景

🔒 隐私保护

  • 所有语音处理在本地完成
  • 模型权重在首次运行时自动从 Hugging Face 下载(约 6GB - 仅 0.6B 模型)
  • 处理完的音频文件会自动删除,不会存储
  • 不收集任何用户语音数据和识别内容

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个 Skill!

📄 许可证

Apache-2.0

Reviews (0)

Sign in to write a review.

No reviews yet. Be the first to review!

Comments (0)

Sign in to join the discussion.

No comments yet. Be the first to share your thoughts!

Compatible Platforms

Pricing

Free

Related Configs