当前位置：首页 > news >正文

个人的网站建设的目的微信小程序开发免费模板

news 2025/11/14 17:15:11

个人的网站建设的目的,微信小程序开发免费模板,网站底部版权信息字体颜色,wordpress 社区插件随着Transformer在人工智能领域掀起了一轮技术革命#xff0c;越来越多的领域开始使用基于Transformer的网络结构。目前在语音识别领域中#xff0c;Tranformer已经取代了传统ASR建模方式。近几年关于ASR的研究工作很多都是基于Transformer的改进#xff0c;本文将介绍其中应…随着Transformer在人工智能领域掀起了一轮技术革命越来越多的领域开始使用基于Transformer的网络结构。目前在语音识别领域中Tranformer已经取代了传统ASR建模方式。近几年关于ASR的研究工作很多都是基于Transformer的改进本文将介绍其中应用较为广泛的几个former架构。 1. Conformer Motivation Method Transformer模型擅长获取基于内容的全局信息但是对高细粒度的局部特征效果不佳而CNN擅长获取局部特征信息对于全局信息则需要更多的层。他们希望将CNN和Transformer优势结合起来对音频序列的局部和全局依赖关系进行建模。 Model architecture Conformer也是编码器-解码器结构其中encoder由两个类似夹心饼干的前馈层组成多头自注意力模块和卷积模块夹在两个前馈神经网络中间紧接着Layernorm层。在本篇论文中仅使用1层LSTM作为decoder。卷积模块(CNN) conformer的卷积模块包含点向卷积GLU激活层1-D深度卷积Batchnorm然后是swish激活层其结构如下所示前馈模块(FFM) 前馈模块第一个线性层使用4的扩展因子第二个线性层将其投影回模型维度。使用了swish激活和pre-norm残差单元。 Experiment results 在参数量相当的情况下Confomer可以达到比ContextNet更低的WER。当Conformer参数量为30.7M时其WER甚至优于参数量为139M的Transformer结构。 Ablation Studies 本文一系列的消融实验验证了如下的几个结构和参数的最优配置马卡龙风格的FFN优于残差结构的FFN 深度卷积优于轻量卷积多头注意力头heads数目为4最好 CNN卷积核大小32最佳模型最终在LibriSpeech test clean/test other测试集上分别获得了1.9%和3.9%的WER。 2. Branchformer Motivation Method 受Conformer启发他们想提出了一种更灵活、可解释和可定制的encoder替代方案。Branchformer具有并行分支可用于对端到端语音处理中的各种范围依赖关系进行建模。在每个encoder层中一支使用self-attention来挖掘全局依赖关系另一支使用带有卷积门控(cgMLP)的MLP模块来提取局部关系。 Model architecture 如下图所示左边为encoder的总体结构。右边为Branchformer的结构。它由两个平行的分支组成。一个分支利用注意力捕获全局信息而另一个分支利用带有卷积门控的MLP提取局部信息。 Experiment results 3. EfficientConformer Motivation Method 受Conformer启发他们想在有限的计算预算下降低Conformer体系结构的复杂性。为了降低Conformer的复杂度EfficientConformer进行了如下的优化使用渐进式下采样引入到Conformer编码器中提出了一种名为分组注意力的新型注意力机制。增加grouped操作将自注意力模块的计算复杂度从O(n2d)降低为O(n2d/g)n为时间维度d为隐层维度g为group_size Model architecture EfficientConformer结构如下所示它将原始的Conformer blocks分解为三步前两个步在N个Conformer Block之后叠加Downsampling Block沿着时间维度进行下采样最后一步叠加N个Conformer Block不再叠加Downsampling Block。卷积模块(CNN) 上面是Conformer的CNN模块下面是EfficientConformer的CNN模块。序列下采样是使用跨行深度卷积执行的。将DepthwiseConv的stride设置为大于1的值从而实现时间维度下采样。因为下采样后输出的shape比输入的shape小因此残差模块需要增加Pointwise Projection模块将输入和输出映射到相同的维度。多头注意力模块(GMHA) 首先将Q、K、V的维度变换为(n/g, d*g)其中g为group_size再进行attention计算最后将维度变换为原始的(n, d)。变换后注意力模块的计算复杂度可降低为O(n2d/g) Experiment results 4. Squeezeformer Motivation Method 他们发现Conformer架构的设计选择并不是最优的它存在如下的一些问题 Conformer学习到的网络深层相邻语音帧的特征表示具有很高的时间冗余性。马卡龙结构以及背靠背多头注意力(MHA)和卷积模块过于复杂。这种复杂性使得很难在专用硬件平台上有效地部署模型进行推理而且对ASR效果是没必要的。微观层面上的一些组件不够简洁且对ASR效果没帮助在重新研究了Conformer的宏观和微观结构(宏观是指整体结构、微观指一些小的组件)的设计选择后提出了Squeezeformer Temporal U-Net 结构: 结合Temporal U-Net下采样层将网络中间的采样率减半上采样层在最后恢复采样率以保持训练稳定性。 MFCF block 结构: 作者推荐采用self-attention ffn conv module ffn (MFCF)的组合替代标准Conformer中ffn self-attention conv module ffn(这里的1/2也被取消)。微观架构改动: GLU被替换为Swish同时作者推荐adaptive scale PostLN的方式代替单纯的PreLN或PostLNsubsampling中部分conv被替换为depthwise conv Model architecture Conformer结构(左)和Squeezeformer(右)结构包括用于采样率下采样和上采样的Temporal U-Net结构仅使用层后归一化的标准transformer风格块结构以及深度可分离的子采样层。 Experiment results 条形图和线形图分别表示librisspeech test-other数据集上的WER和FLOPs。对于每次改进都保持FLOPs差不多情况下对比Squeezeformer比Conformer模型降低1.40%的WER。在LibriSpeech-960hr上进行实验。最后三列中包括了单个NVIDIA Tesla A100 GPU上的参数数量、FLOPs和吞吐量(Thp) 5. Zipformer Motivation Method 受Conformer、Squeezeformer启发他们想提出一种更快更高效的内存性能更好的Transformer。类似u-net的编码器结构其中中间层以较低的帧速率运行不同层选择不同分辨率; 用更多的模块重组块结构在块结构中重用注意力权重以提高效率; 将LayerNorm改进为BiasNorm用以保留一些长度信息; 使用功能比Swish更好的SwooshR和SwooshL激活函数。还提出了一个新的优化器称为ScaledAdam它按每个张量的当前规模缩放更新以保持相对变化大致相同并且还显式学习参数规模。 Model architecture 前面两个blocks用的是50Hz(20ms)这个比Squeezeformer要高后面的才变低。就是说有更多的采样率种类。 MHSA通过两步学习全局信息:使用点积运算计算注意力权重并使用这些注意力权重聚合不同的帧信息。这两步复杂度较高。因此作者将MHSA分解为两个独立的模块:多头注意力权重(MHAW)和自我注意力(SA)。通过使用一个MHAW模块和两个SA模块更有效地执行两次注意力计算。此外还提出了一个新的模块非线性注意力(NLA)以充分利用已计算的注意力权重来学习全局信息。 Experiment results Ablation Studies 6. Paraformer Motivation Method 自回归解码效率很低。为加快推理速度设计了非自回归(NAR)方法以实现并行生成。目前NAR存在以下问题由于输出令牌的独立性假设单步NAR的性能不如AR模型特别是在大规模语料库中。改进单步NAR存在两个挑战:一是准确预测输出令牌的数量并提取隐藏变量; 其次增强对输出令牌之间相互依赖关系的建模。旨在改进单步NAR模型使其在大规模语料库上获得与AR模型相当的识别性能为了解决上述问题Paraformer的作者提出了如下的解决方案采用一个预测器Predictor来预测文字个数并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量。受Glancing language model(GLM)启发设计了一个基于GLM的 Sampler模块来增强模型对上下文语义的建模。设计了一种生成负样本的策略来进行最小词错误率训练以进一步提高性能。自回归与非自回归结构如下所示Transformer模型属于自回归模型也就是说后面的token的推断是基于前面的token的。不能并行如果使用非自回归模型的话可以极大提升其速度。 Model architecture Paraformer可以分为5个部分包括Encoder, Predictor, Sampler, Decoder 和Loss function。 Encoder 与自回归模型保持一致可以为 Self-attention、SAN-M 或者 Conformer 结构 Predictor 为2层 DNN 模型预测目标文字个数以及抽取目标文字对应的声学向量指导解码 Sampler 依据输入的声学向量和目标向量生产含有语义的特征向量。(推理时不用) Decoder 结构与自回归模型类似为双向建模自回归为单向建模 Loss function 部分除了交叉熵CE与 MWER 区分性优化目标还包括了 Predictor 优化目标 MAE Experiment results 在Aishell-1上的实验结果表明Paraformer以牺牲一点点精度为代价的情况下将RTF提升了近10倍。 7. 总结 Conformer 解决语音全局和局部信息的建模。提出的方案是CNN学习局部信息Transformer学习全局信息使用夹心饼干的方式结合两者。结果确实比transformer更好了。 Branchformer提出了另一个CNN和Transformer结合的结构Conformer是串行夹心饼干它则是并行结合。 EfficientConformerConformer在深层的时间尺度上下采样提升效率。 Squeezeformer从数据角度证实了时间维度上的冗余使用U-Net对中间层降采样从实验角度证明夹心饼干结构是次优。 Zipformer使用了更多种采样率对transformer进行降采样。 Paraformer使用非自回归方式建模。用实验证实了Transformer中的全局信息用token数量和token之间的关系就可以代替。根据学术界和工业界的研究现状目前大家主要解决的两个问题提升ASR推理效率 ASR-Encoder如何更好地学习语音中全局和局部信息最后谈一下个人对ASR任务一些可能的工作方向 1、如何ASR中的去冗余去冗余的操作有利于语音识别中的效果和推理效率。语音信号包含信息冗余除语义信息外其他信息生理、心理。另一方面包含时间冗余短时不变性。从信号中摒除冗余有助于关注到需要的语义相关信息。就目前来说FBANKCNN简单有效地提取到语义局部信息降采样(从粗到细)可以降低时间维度上的冗余。结合语言学知识或许有更简单有效的表征方式等待探索。 2、ASR研究范式可以从ASR研究范式中学到什么。早期ASR研究范式是专家知识驱动的。语言学规律指导建模。现在的ASR研究范式是数据驱动的使用大模型大数据以任务为导向学习。前者依赖人的经验总结而人的经验必然有很多遗漏是粗糙的。后者依赖数据仍未达到最优。那应该如何逼近最优呢数据-原理-模型利用大数据大模型中间结果分析重新细化和更正语言学理论再利用规律重设计和精简网络。参考文献 [1]. Gulati, A., Qin, J., Chiu, C.-C., et al. Conformer: Convolution-augmented Transformer for Speech Recognition[C]// Interspeech 2020, 5036-5040. [2]. Peng Y, Dalmia S, Lane I, et al. Branchformer: Parallel mlp-attention architectures to capture local and global context for speech recognition and understanding[C]//International Conference on Machine Learning. PMLR, 2022: 17627-17643. [3]. Burchi M, Vielzeuf V. Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition[C]//2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 8-15. [4]. Kim S, Gholami A, Shaw A, et al. Squeezeformer: An efficient transformer for automatic speech recognition[J]. Advances in Neural Information Processing Systems, 2022, 35: 9361-9373. [5]. Yao Z, Guo L, Yang X, et al. Zipformer: A faster and better encoder for automatic speech recognition[J]. arXiv preprint arXiv:2310.11230, 2023. [6]. Gao, Z., Zhang, S., McLoughlin, I., Yan, Z. (2022) Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition. Proc. Interspeech 2022, 2063-2067. [7]. EfficientConformer https://zhuanlan.zhihu.com/p/573133117 [8]. Squeezeformer https://zhuanlan.zhihu.com/p/581923274

查看全文

http://www.zqtcl.cn/news/830934/