Description

name: alicloud-ai-audio-asr-realtime description: Use when low-latency realtime speech recognition is needed with Alibaba Cloud Model Studio Qwen ASR Realtime models, including streaming microphone input, live captions, or duplex voice agents. version: 1.0.0

Category: provider

Model Studio Qwen ASR Realtime

Validation

mkdir -p output/alicloud-ai-audio-asr-realtime
python -m py_compile skills/ai/audio/alicloud-ai-audio-asr-realtime/scripts/prepare_realtime_asr_request.py && echo "py_compile_ok" > output/alicloud-ai-audio-asr-realtime/validate.txt

Pass criteria: command exits 0 and output/alicloud-ai-audio-asr-realtime/validate.txt is generated.

Output And Evidence

Save session payloads and response samples under output/alicloud-ai-audio-asr-realtime/.

Critical model names

Use one of these exact model strings:

qwen3-asr-flash-realtime
qwen3-asr-flash-realtime-2026-02-10

Use cases

Realtime subtitles and captions
Voice-agent duplex input
Streaming speech-to-text in browser or terminal clients

Prerequisites

Set DASHSCOPE_API_KEY in your environment, or add dashscope_api_key to ~/.alibabacloud/credentials.
Realtime sessions generally require WebSocket or streaming session handling in the client.

Normalized interface (asr.realtime)

Request

model (string, optional): default qwen3-asr-flash-realtime
language_hints (array, optional)
format (string, optional): e.g. pcm, wav
sample_rate (int, optional): e.g. 16000
chunk_ms (int, optional): frame size in milliseconds

Response

text (string): recognized transcript fragment
is_final (bool): finalization marker
usage (object, optional)

Quick start

Generate a request template:

python skills/ai/audio/alicloud-ai-audio-asr-realtime/scripts/prepare_realtime_asr_request.py \
  --output output/alicloud-ai-audio-asr-realtime/request.json

Operational guidance

Prefer 16kHz mono PCM unless your client stack requires another format.
Keep chunks small enough for responsive partial results.
If you only have recorded files, use skills/ai/audio/alicloud-ai-audio-asr/ instead.

References

references/sources.md

Alicloud Ai Audio Asr Realtime

Description

name: alicloud-ai-audio-asr-realtime description: Use when low-latency realtime speech recognition is needed with Alibaba Cloud Model Studio Qwen ASR Realtime models, including streaming microphone input, live captions, or duplex voice agents. version: 1.0.0

Model Studio Qwen ASR Realtime

Validation

Output And Evidence

Critical model names

Use cases

Prerequisites

Normalized interface (asr.realtime)

Request

Response

Quick start

Operational guidance

References

Reviews (0)

Comments (0)

Compatible Platforms

Links

Pricing

Related Configs

self-improving-agent

Self Improving Agent

Find Skills

Summarize