跳转至

语音活动检测

语音活动检测(VAD)可在您停止说话时自动触发转录。

启用 VAD

asr2clip --vad

启用 VAD 后,转录在以下情况触发:

  1. 检测到语音(音频高于阈值)
  2. 随后是静音(音频低于阈值持续指定时长)

工作原理

asr2clip 使用多特征检测实现稳健的语音识别:

  • RMS 能量 — 测量音频整体音量
  • 过零率 — 区分语音和噪声(语音的过零率较低)
  • 语音频段能量比 — 检查 300-3000 Hz(人类语音频段)的能量集中度

三个特征必须同时满足才会将音频判定为语音,从而减少键盘噪音、风扇或其他非语音声音的误触发。

自适应阈值

默认情况下,VAD 使用自适应阈值,实时根据环境噪音调整:

# 使用 --vad 时默认启用自适应
asr2clip --vad

# 禁用自适应阈值(使用固定值)
asr2clip --vad --no_adaptive

自适应阈值持续监测背景噪音并自动调整灵敏度,环境变化时无需重新校准。

校准

测量环境噪音以设置合适的阈值:

asr2clip --calibrate

这会录制一小段环境噪音并建议一个阈值。

自定义设置

# 自定义静音阈值和时长
asr2clip --vad --silence_threshold 0.005 --silence_duration 2.0

VAD 选项

选项 默认值 说明
--vad 启用语音活动检测
--adaptive 开启(使用 --vad 时) 自适应阈值调整
--no_adaptive 禁用自适应阈值
--silence_threshold 0.01 静音 RMS 阈值
--silence_duration 1.5 秒 触发转录的静音时长
--calibrate 从环境噪音校准阈值

行为细节

  • 最短语音时长:0.5 秒 — 短暂的噪声会被忽略
  • 最长语音时长:30 秒 — 连续说话超过 30 秒会强制触发转录
  • 语音间隔容忍:0.3 秒 — 语音中的短暂停顿不会被视为静音
  • 启动自动校准:开始录音时自动测量环境噪音水平