当前位置: 首页 > news >正文

有什么软件可以做网站微博推广渠道

有什么软件可以做网站,微博推广渠道,毕业设计可以做网站不,电影网站建设需要什么摘要 我们提出了SpecAugment#xff0c;这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入#xff08;即滤波器组系数#xff09;。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于…摘要 我们提出了SpecAugment这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入即滤波器组系数。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能胜过了所有先前的工作。在LibriSpeech上我们在测试集test-other上实现了6.8%的词错误率WER没有使用语言模型通过与语言模型进行浅层融合WER为5.8%。这与先前最先进的混合系统7.5%的WER相比。对于Switchboard我们在Hub500测试集的Switchboard/CallHome部分上实现了7.2%/14.6%的WER没有使用语言模型在进行浅层融合后为6.8%/14.1%这与先前最先进的混合系统8.3%/17.3%的WER相比。 1.引言 深度学习已成功应用于自动语音识别ASR[1]研究的主要重点是设计更好的网络架构例如DNNs [2]、CNNs [3]、RNNs [4]和端到端模型 [5, 6, 7]。然而这些模型往往容易过拟合需要大量的训练数据 [8]。 数据增强已被提出作为生成额外训练数据用于ASR的方法。例如在[9, 10]中为低资源语音识别任务增强了人工数据。声道长度归一化已在[11]中用于数据增强。在[12]中通过将清晰音频与嘈杂音频信号叠加合成嘈杂音频。在[13]中对原始音频进行速度扰动用于LVSCR任务。在[14]中探讨了声学房间模拟器的使用。在[15, 16]中研究了关键词检测的数据增强。在训练多流ASR系统时采用了特征丢失 [17]。更一般地学习的增强技术探索了不同的增强转换序列在图像领域取得了最先进的性能 [18]。 受到语音和视觉领域增强技术最近取得的成功的启发我们提出了SpecAugment这是一种对输入音频的log mel频谱图进行操作的增强方法而不是直接对原始音频进行操作。这种方法简单且计算成本低因为它直接作用于log mel频谱图就像处理图像一样并且不需要额外的数据。因此我们能够在训练过程中在线应用SpecAugment。SpecAugment包括对log mel频谱图的三种变形。第一种是时间扭曲即在时间方向对时间序列进行变形。另外两种增强方法受到计算机视觉[19]领域中提出的“Cutout”启发分别是时间遮罩和频率遮罩其中我们遮蔽一块连续的时间步长或mel频率通道。 这种方法虽然基础但非常有效使我们能够训练端到端的自动语音识别网络称为Listen Attend and Spell (LAS)[6]超越更复杂的混合系统在LibriSpeech上取得最先进的结果甚至在没有使用语言模型LMs的情况下也能做到。在LibriSpeech上[20]我们在测试干净集上实现了2.8%的词错误率WER在测试其他集上实现了6.8%的WER而没有使用LM。通过与在LibriSpeech LM语料库上训练的LM进行浅融合[21]我们能够提高性能在测试干净集上的WER为2.5%在测试其他集上的WER为5.8%相对于测试其他集我们的性能提高了22%。在Switchboard 300hLDC97S62[22]上我们在Hub5’00LDC2002S09、LDC2003T02测试集的Switchboard部分获得了7.2%的WER在CallHome部分获得了14.6%的WER而没有使用LM。通过与在Switchboard和FisherLDC200{4,5}T19[23]语料库的组合文本上训练的LM进行浅融合我们在Switchboard/Callhome部分获得了6.8%/14.1%的WER。 2.增强策略 我们的目标是构建一个作用于对数梅尔频谱图的增强策略从而帮助网络学习有用的特征。受到这一目标的启发即这些特征应该对时间方向上的变形、部分频率信息丢失以及语音小片段的部分丢失具有鲁棒性我们选择了以下变形来构成一个策略。 时间扭曲通过tensorflow的sparse image warp函数实现。给定一个具有τ个时间步长的log mel频谱图我们将其视为一幅图像其中时间轴是水平的频率轴是垂直的。在图像中通过中心点的水平线上在时间步长Wτ−W内选择一个随机点将其沿该线左右扭曲一个距离w距离w在0到时间扭曲参数W的均匀分布中选择。我们在边界上固定了六个锚点——四个角点和垂直边缘的中点。频率遮罩被应用以便遮蔽f个连续的mel频率通道[f0f0 f)其中f首先从0到频率遮罩参数F的均匀分布中选择f0从[0, ν − f)中选择。这里ν是mel频率通道的数量。时间遮罩被应用以便遮蔽t个连续的时间步长[t0t0 t)其中t首先从0到时间遮罩参数T的均匀分布中选择t0从[0,τ − t)中选择。我们引入了一个时间遮罩的上限以便时间遮罩不能超过时间步长的n倍。 图1显示了应用于单个输入的各种增强示例。log mel频谱图被标准化为零均值因此将遮蔽值设置为零相当于将其设置为均值。我们可以考虑应用多个频率和时间遮罩的策略。这些多重遮罩可能会重叠。 我们可以考虑采用多频率和时间掩模的策略。这些多个掩模可能会重叠。在本工作中我们主要考虑一系列手工制定的策略包括LibriSpeech基础版LB、LibriSpeech双倍版LD、Switchboard轻度版SM和Switchboard强度版SS它们的参数总结在表1中。在图2中我们展示了一个使用LB和LD策略增强的对数梅尔频谱图的示例。 3.方法 我们在语音识别任务中使用Listen, Attend and Spell (LAS)网络[6]。这些模型是端到端的训练起来比较简单并且具有良好记录的基准测试[24, 25]我们可以借鉴这些基准测试结果来获得我们的结果。在本节中我们回顾LAS网络并引入一些标记来对其进行参数化。我们还介绍了用于训练网络的学习率调度因为它们最终是决定性能的重要因素。最后我们回顾了浅层融合[21]我们已经使用它来整合语言模型以进一步提高性能。 3.1 LAS网络结构 我们使用Listen, Attend and Spell (LAS)网络[6]进行端到端语音识别参考了[25]中的研究其中我们使用记法LAS-d-w。输入的log mel频谱图通过一个具有最大池化和步长为2的2层卷积神经网络CNN进行处理。CNN的输出通过一个编码器该编码器由d个堆叠的双向LSTM组成每个LSTM的细胞大小为w产生一系列注意力向量。这些注意力向量被馈送到一个具有细胞维度w的2层RNN解码器中用于生成转录的标记。文本使用Word Piece Model (WPM) [26]进行分词LibriSpeech使用16k词汇量的WPMSwitchboard使用1k词汇量的WPM。对于LibriSpeech 960hWPM是使用训练集的转录构建的。对于Switchboard 300h任务训练集的转录与Fisher语料库的转录合并以构建WPM。最终的转录结果是通过束搜索beam search获得束大小为8。与[25]进行比较时我们注意到他们的“large model”在我们的记法中是LAS-4-1024。 3.2学习率调度 学习率调度在确定语音识别网络性能时起着重要作用尤其是在使用数据增强时更为重要。在这里我们引入了两种训练调度的目的。首先我们使用这些调度来验证较长的调度是否提高了网络的最终性能特别是在使用数据增强时见表2。其次基于此我们引入了非常长的调度用于最大化网络的性能。 我们使用学习率调度其中我们逐渐增加学习率保持一段时间然后按指数衰减直到达到最大值的1/100。在此之后学习率保持不变。这个调度由三个时间戳参数化分别代表从零学习率完成的增加阶段指数衰减开始的阶段以及指数衰减结束的阶段。 在我们的实验中还有另外两个因素引入了时间尺度。首先我们在步骤启用了标准差为0.075的变分权重噪声[27]并在整个训练过程中保持不变。权重噪声是在学习率的高平台期间引入的。 其次我们引入了不确定性为0.1的均匀标签平滑[28]即正确的类别标签被赋予0.9的置信度而其他标签的置信度相应增加。正如后面再次评论的那样标签平滑可能会使较小的学习率的训练不稳定因此我们有时选择只在训练开始时打开它并在学习率开始衰减时关闭。 我们使用的两种基本计划如下 1. 基本计划B() (0.5k, 10k, 20k, 80k) 2. 双倍计划D() (1k, 20k, 40k, 160k) 正如在第5节中进一步讨论的那样我们可以通过使用更长的计划来提高已训练网络的性能。因此我们引入以下计划 3. 长计划L() (1k, 20k, 140k, 320k)我们使用它来训练最大的模型以提高性能。 在使用长计划L时对于 LibriSpeech 960h我们在时间步骤 140k 时引入了不确定性为0.1的标签平滑然后将其关闭。对于 Switchboard 300h标签平滑在整个训练过程中都保持开启状态。 3.3浅融合与语言模型 虽然我们能够通过数据增强获得最先进的结果但通过使用语言模型我们可以进一步提高性能。因此我们通过浅融合为两个任务引入了一个RNN语言模型。在浅融合中解码过程中的“下一个标记”由以下公式确定 即通过同时对使用基础ASR模型和语言模型评分的标记进行打分来确定。我们还使用了覆盖惩罚c[29]。 对于 LibriSpeech我们使用了一个在LM中使用的嵌入维度为1024的双层RNN该模型在LibriSpeech LM语料库上进行训练。我们在整个过程中使用了与[25]中相同的融合参数λ 0.35和c 0.05。 对于 Switchboard我们使用了一个在 Fisher 和 Switchboard 数据集的合并转录上训练的嵌入维度为256的双层RNN。我们通过在RT-03LDC2007S10上测量性能来通过网格搜索找到融合参数。我们将在第4.2节中讨论各个实验中使用的融合参数。 4.实验 在本节中我们描述了在LibriSpeech和Switchboard上使用SpecAugment进行的实验。我们报告了最先进的结果这些结果胜过了经过精心设计的混合系统。 4.1 LibriSpeech 对于LibriSpeech我们采用了与[25]相同的设置其中我们使用了80维的滤波器组合包括delta和delta-delta加速度以及一个16k词片模型[26]。 LAS-4-1024、LAS-6-1024和LAS-6-1280这三个网络是在LibriSpeech 960h上训练的采用了一组增强策略None、LB、LD和训练计划B/D。在这些实验中没有使用标签平滑技术。实验采用了峰值学习率为0.001和批量大小为512在32个Google Cloud TPU芯片上运行了7天。除了增强策略和学习率计划所有其他超参数都固定没有进行额外的调整。我们在表2中报告了由dev-other集验证的测试集数据。我们发现增强策略始终能够提高训练网络的性能并且更严格的增强策略下较大网络和更长的学习率计划的好处更加明显。 我们选择最大的网络LAS-6-1280并使用计划L训练时间约为24天和策略LD来训练网络以最大化性能。我们在时间步140k时打开了标签平滑技术如前所述。通过评估具有最佳dev-other性能的检查点报告了测试集性能。即使没有语言模型LAS-6-1280模型也取得了最先进的性能。我们可以通过浅融合引入语言模型来进一步提高性能。结果见表3。 4.2 Switchboard 对于Switchboard 300h我们使用Kaldi [40]的“s5c”配方来处理我们的数据但我们改变了配方使用了80维的滤波器组合包括delta和delta-delta加速度。我们使用一个1k WPM [26]来对输出进行分词该分词是使用Switchboard和Fisher语料库的结合词汇构建而成的。 我们使用策略None、SM、SS和计划B来训练LAS-4-1024。与之前一样我们将峰值学习率设置为0.001总批量大小设置为512并使用32个Google Cloud TPU芯片进行训练。这里的实验有和没有标签平滑两种情况。由于没有一个规范的开发集我们选择在训练计划的最后一个检查点进行评估我们选择将计划B的步骤设为100k。我们注意到在衰减计划完成后步骤sf训练曲线会放松网络的性能变化不大。表4展示了Switchboard 300h的各种增强策略在有无标签平滑的情况下的性能。我们可以看到标签平滑和增强对于这个语料库具有累加效果。 与LibriSpeech 960h一样我们使用计划L训练时间约为24天在Switchboard 300h训练集上训练LAS-6-1280以获得最先进的性能。在这种情况下我们发现在整个训练过程中打开标签平滑有利于最终性能。我们报告了在训练时间结束时340k步的性能。我们在表5中将我们的结果与其他工作放在一起进行展示。我们还使用在Fisher-Switchboard上训练的语言模型进行浅融合其融合参数是通过在RT-03语料库上评估性能得到的。与LibriSpeech的情况不同融合参数在不同训练的网络之间不能很好地传递——表5中的三个条目分别是通过使用融合参数λc0.30.05、0.20.0125和0.10.025获得的。 5.讨论 时间扭曲对于提高性能有一定贡献但并不是主要因素。在表6中我们分别呈现了三个训练结果其中关闭了时间扭曲、时间屏蔽和频率屏蔽。我们可以看到尽管时间扭曲的效果很小但仍然存在。在本文讨论的增强方法中时间扭曲既是最昂贵的又是影响最小的所以在任何预算限制下应该首先取消时间扭曲增强。 标签平滑会引入训练的不稳定性。我们注意到当在LibriSpeech中应用增强时使用标签平滑会导致不稳定的训练次数比例增加。当学习速率被衰减时这一现象更加明显因此我们在LibriSpeech训练中引入了一个标签平滑计划其中标签只在学习速率计划的初始阶段进行平滑处理。增强将过拟合问题转化为欠拟合问题。从图3中网络的训练曲线可以观察到当网络在增强训练集上训练时不仅对损失和词错误率欠拟合而且在训练集本身上也出现了欠拟合现象。这与通常情况下网络倾向于对训练数据过拟合的情况形成鲜明对比。这是使用增强训练的主要好处如下所解释的那样。 解决欠拟合的常见方法带来了改进。通过采用标准方法缓解欠拟合问题——扩大网络规模和延长训练时间我们能够在性能上取得显著进展。当前报告的性能是通过递归过程获得的首先应用严格的增强策略然后扩展更宽、更深的网络并使用更长的训练计划来解决欠拟合问题。 相关工作的评论。我们注意到在CNN声学模型的研究中曾对类似频率屏蔽的增强进行了研究[49]。在其中相邻频率块被预先分组成箱每个小批量随机地将其中一些频率置零。另一方面SpecAugment中的频率屏蔽的大小和位置选择是随机的对于每个小批量输入都不同。有关在谱图中结构上省略频率数据的更多想法已在文献中讨论过[50]。 6.结论 SpecAugment极大地提高了语音识别网络的性能。通过使用简单手工制定的策略增强训练集我们能够在端到端LAS网络上获得LibriSpeech 960h和Switchboard 300h任务的最新成果甚至在没有语言模型的帮助下超越混合系统的性能。SpecAugment将ASR从过拟合问题转变为欠拟合问题我们能够通过使用更大的网络和更长时间的训练来提高性能。 致谢我们要感谢Yuan Cao、Ciprian Chelba、Kazuki Irie、Ye Jia、Anjuli Kannan、Patrick Nguyen、Vijay Peddinti、Rohit Prabhavalkar、Yonghui Wu和Shuyuan Zhang的有益讨论。我们还要感谢György Kovács介绍给我们文献[49, 50]的工作。
http://www.zqtcl.cn/news/512447/

相关文章:

  • 做网站和做公众号资金盘网站怎么建设
  • 全国最好的网站建设案例推广方法视频
  • 嘉兴网站建设策划方案在海口注册公司需要什么条件
  • 旅游网站国际业务怎样做建设企业官方网站企业登录
  • 北京市昌平网站建设小米网络营销案例分析
  • 怎么利用360域名做网站微信商城怎么弄
  • 中山h5网站建设天津网站建设技术托管
  • 建网站买的是什么商城网站建设合同
  • 购物网站制作样例有没有专门学做婴儿衣服的网站
  • 济南网站建设 找小七买友情链接有用吗
  • 南阳网站建设域名公司泉州关键词排名seo
  • 网站建设在线推广宁夏快速自助制作网站
  • 专业网站建设好不好wordpress编辑文章更新失败
  • 河南郑州网站建设哪家公司好html5 网站正在建设中
  • 免费ppt模板下载医学类江门seo网站推广
  • 智慧软文网站群辉wordpress地址
  • 自己怎么做拼单网站外贸网站 源码
  • 做网站如何防止被黑网页无法访问如何解决360浏览器
  • 专门做设计的网站互联网运营培训班哪个好
  • 烟台网站建设网站推广做网站与数据库的关系
  • 深圳网站设计成功刻成全视频免费观看在线看第7季高清
  • 淮阳城乡建设局网站seo技术团队
  • 建设博客网站游戏交易类网站seo怎么做
  • 做系统软件的网站wordpress网站会员太多
  • 上海门户网站怎么登录网站开发竞价单页
  • 东莞市外贸网站建设公司软件开发 系统开发 网站开发服务
  • 泉州制作网站设计南宁网站排名外包
  • 南通网站建设入门wordpress google seo
  • 怎么建立图片的网站吗网站响应式是什么意思
  • 网站建设买了服务器后怎么做WordPress多城市