重庆专业网站建设公司,火车头wordpress,河南建筑公共信息,网站 流量 不够用论文链接#xff1a;https://arxiv.org/pdf/2102.11165.pdf 目录
摘要#xff1a;
引言
问题定义
方法
Graph Deviation Networks
Cross-network Meta-learning 摘要#xff1a; 网络异常检测旨在找到与绝大多数行为显着不同的网络元素#xff08;例如节点、边、子图…论文链接https://arxiv.org/pdf/2102.11165.pdf 目录
摘要
引言
问题定义
方法
Graph Deviation Networks
Cross-network Meta-learning 摘要 网络异常检测旨在找到与绝大多数行为显着不同的网络元素例如节点、边、子图。它对从金融、医疗保健到社交网络分析等各种应用产生了深远的影响。 由于难以承受的标签成本现有方法主要是以无监督的方式开发的。尽管如此由于缺乏对感兴趣的异常的先验知识他们识别的异常可能会变成数据噪声或无趣的数据实例。 因此研究和开发网络异常检测的小样本学习至关重要。在现实场景中很少有标记的异常也很容易在与目标网络相同域的类似网络上访问而大多数现有工作都忽略了利用它们而仅仅关注单个网络。 利用这一潜力在这项工作中我们通过1提出一个新的图神经网络系列——图偏差网络GDN来解决小样本网络异常检测的问题它可以利用少量标记的异常来检测强制网络上异常节点和正常节点之间存在统计显着偏差 (2)为所提出的GDN配备了一种新的跨网络元学习算法通过从多个辅助网络传输元知识来实现小样本网络异常检测。广泛的评估证明了所提出的方法在少量甚至一次性网络异常检测方面的有效性。
引言 由于标记异常是高度劳动密集型的并且需要专门的领域知识现有的方法主要是以无监督的方式开发的。作为一种流行的范式人们尝试用基于自动编码器的模型的重建误差[6, 18]或基于矩阵分解的方法的残差[2,17,34]来测量节点的异常。 然而由于缺乏对感兴趣的异常的先验知识他们识别的异常可能会变成数据噪声或不感兴趣趣的数据实例。该问题的一个潜在解决方案是利用有限或很少的标记异常作为先验知识来学习异常通知模型因为它在现实场景中成本相对较低 - 一小组标记异常可以来自已部署的检测系统或由用户反馈提供。与此同时这些有价值的知识通常分散在目标网络同一域内的其他网络中可以进一步利用这些网络来提取监督信号。 可以将 ACM 和 DBLP 视为计算机科学领域中具有类似引文关系的引文网络。根据之前的研究[33,51,52]由于拓扑结构和节点属性的相似性将有价值的知识从源网络转移到目标网络从而提高目标网络的性能是可行的。因此在这项工作中我们建议研究跨网络设置下的少样本网络异常检测的新问题。 尽管如此解决这个尚未探索的问题仍然很重要主要是由于以下原因1从微观网络内的角度来看由于我们对异常的了解有限因此很难精确地描述异常模式。如果我们直接采用现有的半监督[37]或PU[40]学习技术这些方法往往无法达到令人满意的结果因为它们可能仍然需要相对较大比例的正例[23]。为了处理如图1a所示的这种不完全监督挑战[47]有必要探索如何利用尽可能少的标记异常来学习正常模式的高级抽象而不是关注异常节点 (2)从宏观(网络间)的角度来看虽然同一域内的网络总体上可能具有相似的特征但不同网络中存在的异常可能来自非常不同的流形。先前关于跨网络学习的研究[29, 41]大多集中于仅从单个网络迁移知识这可能会导致结果不稳定和负迁移的风险。由于从多个网络中学习可以提供有关异常特征的更全面的知识因此非常需要一种能够适应这些知识的跨网络学习算法 图 1由于异常通常具有不同的模式(a) 现有方法可能很容易无法将它们与潜在表示空间中的正常节点区分开来而标记的异常很少(b) 虽然它们可以在异常得分空间中通过以下方式很好地分离强制异常节点和正常节点之间存在统计显着偏差。 为了应对上述挑战我们在这项工作中首先设计了一种新的 GNN 架构即图形偏差网络GDN以便在标注数据有限的情况下进行网络异常检测。具体来说给定一个任意网络GDN 首先使用一个 GNN 骨干异常得分学习器为每个节点分配异常得分然后根据先验概率定义异常得分的平均值作为指导后续异常得分学习的参考得分。通过利用偏差损失[23]GDN 能够在异常得分空间中强制执行异常节点的异常得分与正常节点的异常得分在统计上的显著偏差如图 1(b)所示。为了进一步将这一能力从多个网络转移到目标网络我们提出了一种跨网络元学习算法从多个少量网络异常检测任务中学习通用性良好的 GDN 初始化。无缝集成的框架 Meta-GDN 能够提取用于检测多个网络异常的综合元知识这在很大程度上缓解了从单一网络迁移的局限性。随后初始化可以通过微调轻松适应目标网络只需少量甚至一个标注异常点就能在很大程度上提高目标网络的异常检测性能。总而言之我们的主要贡献有三个方面 问题据我们所知我们是第一个研究小样本网络异常检测这一新问题的人。值得注意的是我们建议通过跨多个网络转移知识来解决这个问题。 算法我们提出了一个原则框架 Meta-GDN它集成了一系列新的图神经网络即 GDN和跨网络元学习以检测带有少量标记实例的异常。 评估我们进行了大量的实验来证实我们方法的有效性。实验结果证明了 Meta-GNN 在网络异常检测方面优于最先进的方法。
问题定义 在本节中我们正式定义少样本跨网络异常检测问题。在整篇论文中我们使用粗体大写字母表示矩阵例如A粗体小写字母表示向量例如u小写字母表示标量例如并使用书法字体来表示集合例如V。值得注意的是在这项工作中我们专注于属性网络以实现更通用的目的。给定一个属性网络 G (V, E, X)其中 V 是节点集即 {1, 2,…。 。 。 , }E 表示边的集合即 {1, 2, . 。 。 }。节点属性由 X [x T 1 , x T 2 , · · · , x T ] ∈ R × 表示x 是节点 的属性向量。更具体地说我们将属性网络表示为 G (A, X)其中 A {0, 1} × 是表示网络结构的邻接矩阵。具体来说A, 1 表示节点 和节点 之间存在边否则A, 0 一般来说少样本跨网络异常检测旨在通过从辅助网络传输非常有限的ground truth异常监督知识来最大限度地提高目标网络的检测性能。除了目标网络 G 之外在这项工作中我们假设还存在 辅助网络 G {G 1 , G 2 , 。 。 。 , G } 与 G 共享相同或相似的域。对于属性网络标记的异常节点的集合表示为 V未标记的节点的集合表示为 V 。请注意 V {V , V } 并且在我们的问题中 |V |≪ |V |因为只给出了少量的标记数据。由于网络异常检测通常被表述为排序问题[1]我们正式定义少样本跨网络异常检测问题如下 问题 1. 小样本跨网络异常检测给定 辅助网络即 G {G 1 (A 1 , X 1 ), G 2 (A 2 , X 2 ), 。 。 。 , G (A , X )} 和目标网络 G (A , X )每个网络都包含一组少样本标记异常即 V 1 , V 2 , . . . , V 和 V ) 目标学习一个异常检测模型该模型能够利用来自多个辅助网络的真实异常知识即 {G 1 , G 2 , . 。 。 , G }检测目标网络 G 中的异常节点。理想情况下检测到的异常应该比正常节点具有更高的排名分数。
方法 在本节中我们将介绍所提出的框架 - 用于小样本网络异常检测的 Meta-GDN 的详细信息。具体来说Meta-GDN 通过以下两个关键贡献解决了所讨论的挑战1图偏差网络GDN一个新的图神经网络系列可以使用有限的标记数据对任意单个网络进行异常检测 (2) 跨网络元学习算法使 GDN 能够跨多个辅助网络传输元知识以实现对目标网络的小样本异常检测。图 2 概述了拟议的 Meta-GDN。
Graph Deviation Networks 为了能够在具有少量标记数据的任意网络上进行异常检测我们首先提出了一个新的图神经网络系列称为图偏差网络GDN。 由三个关键构建块组成包括1用于学习节点表示的网络编码器 (2)异常评估器用于评估每个节点的异常得分 (3) 用于优化带有少量标记异常的模型的偏差损失。详情如下所示 网络编码器。为了从输入网络学习表达节点表示我们首先构建网络编码器模块。具体来说它由多个 GNN 层构建将每个节点编码为低维潜在表示。一般来说GNN 遵循邻域消息传递机制并通过以迭代方式聚合局部邻域的特征来计算节点表示。形式上通用 GNN 层使用两个关键函数计算节点表示 为了捕获网络中的远程节点依赖性我们在网络编码器中堆叠多个 GNN 层。因此网络编码器可以表示为 异常评估器。然后从网络编码器学习到的节点表示将被传递给异常评估器·以进一步估计每个节点的异常情况。具体来说异常评估器由两个前馈层构建将中间节点表示转换为标量异常分数 偏差损失。本质上GDN 的目标是根据计算出的带有少样本标签的异常分数来区分正常节点和异常节点。在这里我们建议采用偏差损失[23]来强制模型为那些特征显着偏离正常节点的节点分配较大的异常分数。为了指导模型学习我们首先定义一个参考分数即作为一组随机选择的正常节点的异常分数的平均值。它可以作为量化异常节点的分数与正常节点的偏差程度的参考。 根据之前的研究 [15, 23]高斯分布通常是拟合各种数据集的异常分数的稳健选择。基于这个假设我们首先从高斯先验分布中采样一组 异常分数即 R {1, 2, 。 。 。 , } ∼ N(, 2 )其中每一个表示随机正常节点的异常。参考分数计算为所有采样分数的平均值 有了参考分数节点的异常分数与参考分数之间的偏差可以用标准分数的形式定义 其中 是采样异常分数集的标准差 R {1, . 。 。 }。然后通过将距离函数替换为式6中的偏差可以从对比损失[11]中导出最终的目标函数 其中 是输入节点 的真实标签。如果节点 是异常节点则 1否则 0。请注意 是定义偏差周围半径的置信边际 通过最小化上述损失函数GDN 会将正常节点的异常分数尽可能接近 同时强制 与异常节点的异常分数之间至少有 的较大正偏差。这样GDN 就能够学习正常模式的高级抽象而标记的异常要少得多并使节点表示学习能够区分正常节点和罕见异常。因此如果节点的模式显着偏离学习到的正常模式的抽象则将向该节点分配较大的异常分数 我们的初步结果表明只要 不太大GDN 对 和 的选择并不敏感。具体来说我们在实验中设置0和1这有助于GDN在不同数据集上实现稳定的检测性能。还值得一提的是由于我们无法访问正常节点的标签因此我们简单地将 V 中未标记的节点视为正常节点。请注意这样剩余的未标记异常和所有正常节点将被视为正常从而将污染引入到训练集中即未标记异常与总未标记训练数据 V 的比率。值得注意的是GDN 通过使用这种简单的策略表现非常好并且对不同的污染水平具有鲁棒性。第 2 节评估了不同污染水平对模型性能的影响。 5.4.
Cross-network Meta-learning 有了所提出的图偏差网络GDN我们能够有效地检测具有有限标记数据的任意网络上的异常。当来自目标网络同一域的辅助网络可用时如何传递这些有价值的知识是在目标网络上实现少样本异常检测的关键。尽管它具有可行性但如果我们直接借用现有跨网络学习方法的思想性能将相当有限。主要原因是这些方法仅仅专注于从单个网络转移知识[29, 41]这可能会由于不同网络上的异常特征不同而导致负转移。为此我们转而利用多个辅助网络来提取异常的全面知识。 作为提取和转移知识的有效范式元学习由于在各种高影响力领域的广泛应用最近受到越来越多的研究关注[8,19,20,27,36,38]。本质上元学习的目标是在各种学习任务上训练模型使得学习到的模型能够有效地适应很少甚至只有一个标记数据的新任务[13]。特别是芬恩等人 [10]提出了一种与模型无关的元学习算法来显式地学习模型参数使得模型可以通过少量的梯度步骤和有限的标记数据实现对新任务的良好泛化。受这项工作的启发我们建议学习一个元学习器即 Meta-GDN作为来自多个辅助网络的 GDN 的初始化它具有有效识别新目标网络上异常节点的泛化能力。具体来说Meta-GDN 在训练阶段从辅助网络上的不同小样本网络异常检测任务中提取真实异常的元知识并将针对目标网络上的新任务进行进一步微调使得模型可以做出快速有效的适应。 我们将每个学习任务定义为在单个网络上执行少量异常检测其目标是强制将大异常分数分配给等式7中定义的异常。 令 T 表示由网络 G 构建的少样本网络异常检测任务那么每个时期我们都有 学习任务。我们考虑由带有参数 的参数化函数 表示的 GDN 模型。给定 任务优化算法首先针对每个学习任务 T 独立调整初始模型参数 至 ′ 。具体来说更新的参数 ′ 是使用 LT 对从 G 中的 V 和 V 采样的一批训练数据计算的。形式上一步梯度的参数更新可以表示为 通过在所有学习任务中优化 相对于 的最佳性能来训练模型参数。更具体地元目标函数定义如下 通过优化 GDN 的目标更新后的模型参数可以保留检测每个网络异常的能力。由于元优化是在参数上执行的目标是使用所有任务的更新参数计算的相应地模型参数被优化使得目标任务网络上的一个或少量梯度步骤将产生巨大的效果。 形式上我们利用随机梯度下降SGD来更新所有任务的模型参数使得模型参数更新如下 其中 是元步长。完整的算法总结在算法 1 中。具体来说对于每个批次我们从未标记数据即 V 和标记异常数据即 V 中随机采样相同数量的节点分别表示正常和异常节点步骤- 4).