天津哪家网站设计公司好,wordpress是哪家公司的建站程序,郑州网站制作设计,清博舆情监测系统引言作者借鉴图神经网络中的注意力机制#xff0c;提出了图注意力神经网络架构#xff0c;创新点主要包含如下几个#xff1a;①采用masked self-attention层#xff0c;②隐式的对邻居节点采用不同权重③介绍了多头注意力机制。 在作者的Introduction中#xff0c;该论文…引言作者借鉴图神经网络中的注意力机制提出了图注意力神经网络架构创新点主要包含如下几个①采用masked self-attention层②隐式的对邻居节点采用不同权重③介绍了多头注意力机制。 在作者的Introduction中该论文提出的思路类似于MoNet下一次分享一下这个算法。模型介绍该模型相比于GraphSage而言其实是比较容易理解的即对邻居节点按照不同的概率加权运算。其输入是节点特征 其中 是节点的数目 是节点相应的特征更新后的特征是 。将每个节点施加不同的权重并在自身节点采取self-attention经过一个注意力机制计算函数 这里的 可以采用最简单的相关度函数来计算在dgl中可以将计算结果存储到边。计算权重系数公式为 此处采用masked attention来将图结构应用到此机制即只计算节点的邻居节点特征在此文中采用的是一阶子图。为了更好的分配权重采用softmax函数重新计算权重系数。更新后的系数为 在作者论文中注意力机制函数为一单层前向神经网络由权重向量 对其参数化使用LeakyRelu作为激活函数将上述公式展开后得到然后将结果施加非线性函数 得到结果如下 那么据此推理我们可以得到多头注意力机制运算方式 其中||表示拼接操作表示将多个注意力头学习到的特征进行拼接。在论文中作者采用的是加法求平均后进过非线性变换。公式如下为了方便大家的理解这里将原文的图直接搬过来一看就清晰了注意力机制 左图是单头注意力机制右图是多头注意力机制其中不同颜色的线代表不同的注意力头。这样对照上面的公式一看是不是很清晰明了。与相关工作对比作者在第2.2节将其所作工作和相关方面的算法进行对比主要具备如下几个方面的优势。1. 计算高效计算可以并行。 2. 相比于GCN来说为同一邻域的节点分配不同权重可以扩充模型尺度 3. 模型权值共享 4. 相比于GraphSage而言不需要固定采样尺寸算法处理整个邻域 5. 采样节点特征计算相似度而并非节点的结构特性这样可以在不需要知道图结构的前提下计算。此外作者也指出了图神经网络计算中的几个问题① GPU的计算性能在稀疏矩阵运算中并不一定由于CPU甚至起到的效果更差。②感受野的大小上限受模型深度影响。 ③Skip-connection也许可以用于加深层数解决过平滑等现象④图中的并行计算由于临近区域的高度重叠也许导致许多的冗余计算。实验作者在实验方面采用的数据集分为了Transductive直推式学习、Inductive归纳式学习两个方面这个大家写论文的时候也可以采用效果好的放到一组。同时作者也将算法进行分类例如GCN属于Transductive学习算法而上一次分享的GraphSage属于Inductive学习算法。至于算法的复现也很简单建议大家直接采用dgl算法库可以参考其example中相关算法。本文直接测试cora数据结果和论文相差无几 结果