佛山网站建设优化制作公司,搭建个人网站的两种方法,精准营销推广,雄安网站开发一、概述
当将语音识别算法接入到设备时#xff0c;务必要保证设备的音频通路具有足够的质量。因此对设备进行音频测试#xff0c;以评估能够影响语音识别性能的音频前端的音频参数。如下要点对语音识别至关重要#xff1a;
自然声音合适的增益良好的信噪比一致的响应务必要保证设备的音频通路具有足够的质量。因此对设备进行音频测试以评估能够影响语音识别性能的音频前端的音频参数。如下要点对语音识别至关重要
自然声音合适的增益良好的信噪比一致的响应信号不能包括如下信息 自动增益控制 AGC 启动响应 直流偏置过大适当的频响 高低滚降理想平滑没有混跌
二、测试设备
带有录音软件的被测试设备音频测试仪器CD机均衡器音箱人工嘴和声压计带分析工具的PC机CoolEditor、Audition、Audacity和Wavesurfer等
三、音频文件
正常音频文件用于主观判断音频质量和增益设置以及信噪比大增益文件用于判定削波时的增益设置1K-sine增益Sweep文件0~105dB用于评估削波决定最大数值和判定AGC存在与否0~8K/16K扫频文件用于测试设备的频响和混跌
四、测试项目
1. 主观听音
用质量好的耳机去听设备的音质从而发现一些非正常声音比如杂音、谐波和共振等
音频路径上过多的信号处理可能导致声音畸变为人造声不符合正常自然声音会对软件识别造成很大困难。
2. 增益评估
设备在各种使用场景下务必保持增益的设置不要使信号削波削波会严重降低识别性能必须禁止。
95dB的声音应该刚好填满16bit音程
3. 信噪比
静默值作为底噪声音波形的中部作为信号尤其注意某些记录将具有数据实际值为零的引导/拖尾部分不要使用这部分作为静默测量麦克风单体的信噪比除了本身规格书之外在实际产品中收到电路噪声影响很大尤其注意模拟麦克风bias电源。
信号比S/N30对于识别是良好的比值大于20也是可行的如果小于20的话则说明音频路径上太吵了导致很难识别成功。 4. 自动增益控制AGC
AGC的存在当音频信号的幅度增大时它通常表现为增益逐步减小。它会影响识别效果所以得关闭此功能类似的有自动电平控制寄存器ALC等。
同时部分功放带有动态调节音量的功能务必关闭此项功能否则严重影响AEC效果所有的动态调节都务必在AEC采样点之前进行具体如下图示意 5. 启动瞬态Startup transients
音频系统经常在录音命令下达后需要一段时间才能真正启动操作这导致了启动瞬态如果这主要包括低频的话将不会对识别造成影响因为识别器中有低通滤波器。
然而试图消除瞬态的话将信号钳位在零电平上超过几十毫秒的话会严重影响识别。在这种情况下最好完全跳过音频而不是将此错误信息发送给识别器。 上图中红色框中125ms的启动瞬态应该跳过。
6. 直流偏置过大DC offset
直流偏置可以看作是静音信号在零信号线上高于或者低于的信号
如果偏移量为满刻度限制的百分之几或者更少是没有问题的
但是如果超过10%则需要纠正很大的偏移将导致不对称削波。
7. 频响曲线Response curve
为了隔绝麦克分录音到其他杂音麦克风需要与喇叭足够近大致2.5cm处录音。
检查FFT大小设置为2048个采样点采样窗口设置为Blackmann Harris
理想的频率响应曲线在顶端220Hz和3200~3900Hz之间的几分贝内是平坦的差值一般控制在10dB以内是可以接受的16K采样率的为6400Hz7400Hz如下图所示 频响曲线是个慢慢的渐变过程如果个别区域出现急剧变化应该重点关注并研究音频可能存在其他问题。
8. 混叠Aliasing
当超过采样速率的一半奈奎斯特极限的信号被允许进入模数转换器ADC时出现混叠现象。如下为ES7210调试初期出现的混叠现象 混叠是影响识别的一个重大因素必须消除混叠
故ADC需要有抗混叠处理例如抗混叠滤波器等。
9. 谐波失真Harmonic distortion
当录音系统增加输入信号的泛音时会出现谐波失真
AEC对信号失真是非常敏感的音频通路的整体谐波失真需要控制在5%以内故从麦克风到功放到扬声器和音腔均需要严格控制除了单体品质之外尤其注意功放和扬声器的功率匹配、阻抗匹配和频率匹配
如下图为1K-sine信号的频谱图有奇次谐波、偶次谐波 如下图为8K-sweep信号的频谱图有奇次谐波、偶次谐波 谐波失真越小越好一般要求最好是小于3%。 补充小结项
1-灵敏度和谐波失真2-频响和混叠3-失真和完整性4-麦阵相关性5-相对延迟、系统延迟6-底噪
汇总补充如下
麦克风信噪比60~70 分近中远三场景
麦克风灵敏度-40模拟 -26数字
频响平坦度2dB 100Hz~6KHz
收音孔气密性大于20dB
麦克风一致性相位小于10幅度小于2dB
麦克风间距25~60mm之间 间距小影响低频间距大影响高频叠加装配的误差率体验上在常规噪音环境下影响唤醒率和打断率1个点左右 采样信号幅度最大幅度下不截幅
采样信号非线性失真低频小于10%300Hz~2KHz小于3%
采样信号底噪小于-70dB
各通道信号同步采样波形无畸变无混叠
参考信号信噪比大于40dB
参考信号无截幅