做婚庆网站的功能定位,有哪些可以做网站的平台,炫酷网站欣赏2016,深圳企业电话黄页阅读论文#xff1a; Wen, Qingsong, et al. “Transformers in time series: A survey.” arXiv preprint arXiv:2202.07125 (2022). 这篇综述主要对基于Transformer的时序建模方法进行介绍。论文首先简单介绍了Transformer的基本原理#xff0c;包括位置编码、多头注意力机… 阅读论文 Wen, Qingsong, et al. “Transformers in time series: A survey.” arXiv preprint arXiv:2202.07125 (2022). 这篇综述主要对基于Transformer的时序建模方法进行介绍。论文首先简单介绍了Transformer的基本原理包括位置编码、多头注意力机制、前馈全连接网络等模块。接着提出了从网络结构和应用领域两个角度对时序Transformer进行分类。 从网络结构角度总结了在模块级别和架构级别对Transformer进行的改进以适应时序建模的特点 位置编码模块 简单位置编码经典Transformer中用到的手工设计能提取位置信息但无法充分利用时序数据的重要特征可学习位置编码使用别的模型或增加Transformer嵌入层来学习时序的位置编码的向量表示获得更灵活更expressive的位置编码时间戳编码在Informer和Autoformer里将年月日时分秒和节假日等作为额外的位置编码信息通过可学习位置编码方法得到其向量表示 注意力模块 引入稀疏偏差到注意力机制来降低普通注意力机制的平方复杂度探索自注意力矩阵的低秩特性来加速计算例如Informer和FEDformer 分层架构设计 基于max-pooling下采样实现分辨率折半Informer基于C叉树以不同分辨率序列作为节点并设计相同分辨率尺度和不同分辨率尺度间的注意力机制以捕获其分辨率尺度间的时间依赖Pyraformer 从应用角度概述了Transformer在预测、异常检测和分类任务中的不同变体的应用情况。 预测 时序预测 模块级的变体 设计新的注意力模块占大部分研究 LogTrans提出卷积自注意力使用因果卷积来生成自注意力层的queries和keys并引入稀疏bias和Logsparse mask到自注意力层Informer根据queries和keys相似度选择主要的queries还设计了生成式的decoder来避免在长期预测时做单步自回归预测的累积误差AST使用生成对抗编码器-解码器框架训练稀疏Transformer模型做时序预测也可以避免累积误差Pyraformer设计了一个分层金字塔状注意力模块基于上述的C叉树捕获不同分辨率时序的时间依赖Quatformer基于四元数提出learning-to-rotate注意力引入了可学习的周期和相位信息使得模型可以学习到复杂的时序周期模式FEDformer通过傅里叶变换和小波变换在频域实现注意力操作以降低计算与存储复杂度 增强可解释性 TFT设计了一个针对多种输入数据优化的multi-horizon预测模型通过合并全局、时序依赖和事件来实现可解释性ProTranTransformer和状态空间模型(SSM)结合实现基于变分推理的生成建模和推理SSDNetTransformer和SSM结合用Transformer学习时间模式并估计SSM参数再用SSM对时序数据进行季节性趋势分解以实现可解释性 探索新的时序数据标准化方法 目前只有Non-stationary Transformer探索了时序预测任务中的过度平稳化问题并实现了用于序列平稳化和去平稳化的插件模块 利用token输入的偏差 Autoformer基于分段表示机制设计了季节性趋势分解架构。PatchTST利用通道无关实现多通道序列embedding共享子序列patch设计分割时序数据为子序列patch作为Transformer输入Crossformer利用了跨维度依赖进行多元时序预测通过维度分段embedding将输入嵌入到二维向量以保留时间和维度信息并用两阶段注意力层来捕获这种跨维度依赖。 架构级的变体 Triformer三角树形结构轻量且线性复杂度Scaleformer提出多时间尺度架构并可通过在多尺度上共享参数地迭代细化预测时间序列来提高性能 时空预测 Traffic Transformer加上图神经网络模块捕获空间依赖性Spatial-temporal Transformer在前者基础上加上了空间的Transformer block和图卷积神经网络来更好捕获空间依赖性Spatio-temporal graph Transformer设计了基于注意力的图卷积机制来学习复杂时空注意力模式Earthformer提出立方体注意力机制将数据分解为立方体并应用该机制 事件预测不规则且时间间距不等的事件序列 在传统时间点过程TPP方法上结合Transformer通过嵌入所有可能时间和时间来扩展该方案 异常检测可用于电力数据的跳变异常点检测 TranAD提出使用对抗训练来放大重建误差增强Transformer的异常检测能力。MT-RVAE 设计了多尺度Transformer同时整合全局和局部时序信息。TransAnomaly将Transformer与VAE结合实现训练成本的大幅降低。GTA 借鉴图神经网络思想模拟变量之间的影响传播机制。AnomalyTrans通过建模先验关联和序列关联的方式增强异常点的区分度。 分类任务 GTN使用双塔结构分别建模时间步和通道注意力通过可学习加权融合特征在多元时间序列分类任务上取得SOTA[Rußwurm and Körner, 2020] 应用基于自注意力的Transformer获得了卫星图像时间序列分类的SOTATARNet设计了学习任务相关数据重构的Transformer利用mask和重构时间步的注意力机制提升了分类性能[Yuan and Lin, 2020] 在卫星图像时间序列分类中应用了自监督预训练的Transformer来缓解数据不足[Zerveas et al., 2021] 提出了无监督预训练框架,使用比例mask数据进行模型预训练后微调[Yang et al., 2021] 使用预训练语音模型进行时间序列分类任务迁移学习在多个数据集上获
该论文还通过实验分析了 Transformer在时序建模中的鲁棒性、模型大小和季节性分解等多个方面。作者在ETTm2数据集上针对不同配置的时序Transformer进行了实验分析以研究它们在时序建模中的工作方式。
鲁棒性分析表明许多仔细设计的Transformers在输入序列加长时性能快速恶化。这使它们在长期预测中实际效果有限。需要更多工作来充分利用长序列输入。
模型大小分析发现增加Transformer层数并不一定改善预测效果3-6层的Transformer通常效果更好。这提出了如何设计更深层Transformer架构的问题。
季节性-趋势分解分析发现这种分解可以显著提升Transformer在时序预测中的表现不同模块提升幅度在50-80%。这一发现值得进一步研究设计更高级的分解方案。
最后文章提出了未来可能的研究方向包括为时序Transformer引入先验偏置、与图神经网络结合、预训练模型、架构级变体设计和神经架构搜索等。
个人思考
该调研在时空预测方面的调研启发了对图神经网络的利用而在电力负荷预测中的某些场景也许可以对电网结构进行考虑将电网的拓扑结构、输电距离和输电损耗等等要素加以考虑并以立方体Transformer等方法将空间信息数据的embedding向量放到Transformer进行处理。在Transformer应用于异常检测的方面无监督Transformer被广泛研究。但在考虑进一步应用落地到电力行业时例如用于电负荷突变点等异常点检测时可能需要考虑到如TFT中对多种数据源的利用特别是未来可知数据的输入。能否将无监督重建任务范式与TFT中这种输入数据模式进行结合是一个值得思考的问题。