语音活动检测¶
语音活动检测(VAD)可在您停止说话时自动触发转录。
启用 VAD¶
启用 VAD 后,转录在以下情况触发:
- 检测到语音(音频高于阈值)
- 随后是静音(音频低于阈值持续指定时长)
工作原理¶
asr2clip 使用多特征检测实现稳健的语音识别:
- RMS 能量 — 测量音频整体音量
- 过零率 — 区分语音和噪声(语音的过零率较低)
- 语音频段能量比 — 检查 300-3000 Hz(人类语音频段)的能量集中度
三个特征必须同时满足才会将音频判定为语音,从而减少键盘噪音、风扇或其他非语音声音的误触发。
自适应阈值¶
默认情况下,VAD 使用自适应阈值,实时根据环境噪音调整:
自适应阈值持续监测背景噪音并自动调整灵敏度,环境变化时无需重新校准。
校准¶
测量环境噪音以设置合适的阈值:
这会录制一小段环境噪音并建议一个阈值。
自定义设置¶
VAD 选项¶
| 选项 | 默认值 | 说明 |
|---|---|---|
--vad |
— | 启用语音活动检测 |
--adaptive |
开启(使用 --vad 时) |
自适应阈值调整 |
--no_adaptive |
— | 禁用自适应阈值 |
--silence_threshold |
0.01 | 静音 RMS 阈值 |
--silence_duration |
1.5 秒 | 触发转录的静音时长 |
--calibrate |
— | 从环境噪音校准阈值 |
行为细节¶
- 最短语音时长:0.5 秒 — 短暂的噪声会被忽略
- 最长语音时长:30 秒 — 连续说话超过 30 秒会强制触发转录
- 语音间隔容忍:0.3 秒 — 语音中的短暂停顿不会被视为静音
- 启动自动校准:开始录音时自动测量环境噪音水平