语音活动检测¶

语音活动检测（VAD）可在您停止说话时自动触发转录。

启用 VAD¶

asr2clip --vad

启用 VAD 后，转录在以下情况触发：

asr2clip 使用多特征检测实现稳健的语音识别：

三个特征必须同时满足才会将音频判定为语音，从而减少键盘噪音、风扇或其他非语音声音的误触发。

默认情况下，VAD 使用自适应阈值，实时根据环境噪音调整：

# 使用 --vad 时默认启用自适应
asr2clip --vad

# 禁用自适应阈值（使用固定值）
asr2clip --vad --no_adaptive

自适应阈值持续监测背景噪音并自动调整灵敏度，环境变化时无需重新校准。

测量环境噪音以设置合适的阈值：

asr2clip --calibrate

这会录制一小段环境噪音并建议一个阈值。

# 自定义静音阈值和时长
asr2clip --vad --silence_threshold 0.005 --silence_duration 2.0