校园图书馆网站建设,求百度关键词搜索网站,上海哪家装修公司好,网站怎么建设商城前言
最近#xff0c;拿到了一个语音识别程序#xff0c;想测试一下它识别的准确性。原本程序有一段自己的测试音频#xff0c;准确性还可以#xff0c;但是#xff0c;自己想增加一下测试素材的复杂性。想到了在原本的测试音频中引入干扰数据#xff08;噪点#xff…前言
最近拿到了一个语音识别程序想测试一下它识别的准确性。原本程序有一段自己的测试音频准确性还可以但是自己想增加一下测试素材的复杂性。想到了在原本的测试音频中引入干扰数据噪点再看一下语音识别程序的健壮性。
正文
1、素材介绍
原本程序自带的音频测试素材是一段时长 24 秒的 wav 文件其中包含了关键词 Yes 和 No两个关键词出现的具体时间点如下 yes 1100ms no 5500ms yes 9100ms no 13600ms yes 17100ms no 21600ms 想引入的噪点数据是前段时间在抖音上比较火的背景音乐——《野花与栀子花》具体内容这里就省略了。
2、混音处理
最基础的 ffmpeg 混音命令如下 ffmpeg -i test.wav -i flowers.mp3 -b:a 16k -ac 2 -ar 48000 -filter_complex amixinputs2 mixed_audio.wav 简单介绍一下上述参数
-b:a 16音频码率为16kbps
-ac 2音频声道数为2
-ar 48000音频采样率为48kHz
-filter_complex amixinputs2 音频过滤器
执行结果如下 生成的混音文件 mixed_audio.mp3 包含了两个输入音频文件的内容只是叠加到了一起。不过细心的网友会发现这个输出音频文件的时长是以最长的输入音频文件长度为准的也就是音乐《野花与栀子花》的时长3分26秒。
如何让它以最短时长的音频文件长度为准呢可以增加参数 durationshortest具体命令如下 ffmpeg -i test.wav -i flowers.mp3 -b:a 16k -ac 2 -ar 48000 -filter_complex amixinputs2:durationshortest mixed_audio.wav 执行结果如下 3、测试
最后使用新生成的音频素材进行测试准确率确实受到了影响但是整体影响不大。