当前位置：首页 > news >正文

网站建设会计分录网站建设以及推广提案书

news 2025/11/15 8:00:01

网站建设会计分录,网站建设以及推广提案书,网络营销策划推广,网站开发模块Web Service Network Embedding based on Link Prediction and Convolutional Learning 这是我读研的第一篇论文#xff0c;也是花了好几天的时间。基于链接预测和卷积学习的Web服务网络嵌入摘要#xff1a;为了在许多基本任务中#xff0c;如基于Web的软件服务聚类、推荐…Web Service Network Embedding based on Link Prediction and Convolutional Learning 这是我读研的第一篇论文也是花了好几天的时间。基于链接预测和卷积学习的Web服务网络嵌入摘要为了在许多基本任务中如基于Web的软件服务聚类、推荐和组合等任务达到最佳效果人们已经做出了大量努力来开发高效的特征提取算法。然而现有方法的一个共同问题是挖掘的特征依赖于问题导致在不同应用中的泛化能力较差。最近的研究表明我们可以将网络数据如引文网络和社交网络表示为低维向量并保留丰富的结构和内容信息这可以极大地促进许多下游任务的发展如分类和聚类。本文主要研究Web服务网络嵌入问题其目的是通过对mashupapi组合结构和服务功能内容进行编码学习低维向量来表示服务。我们首先提出了一种新的概率主题模型来预测服务网络中mashup和api之间的潜在联系。然后我们开发了一个服务图卷积网络Service-GCN来学习服务的向量表示其中每个服务例如Mashup或API通过网络上相邻服务之间的消息传递形成其表示。我们评估了下游分类和聚类任务的两个真实数据集上的网络嵌入质量。实验结果表明与最新技术相比我们的方法在服务分类方面的平均性能提高了20.7%Micro-F1在Mashup聚类方面的平均性能提高了19.0%准确率这验证了所提出的学习Web服务向量表示的方法的有效性。索引术语软件服务、Web服务、表示学习、网络嵌入、主题模型 1.引言面向服务的体系结构(SOAs)的出现极大地改变了软件系统开发的潮流从单片的、静态的和集中的结构到模块化的、动态的和分布式的结构。作为一个整体系统(也就是Mashup)通常是通过组合一组基于web的交互式软件服务(例如API服务)来设计和实现的其中每个服务提供对一组明确定义的功能的访问。另一方面Internet上广泛的Web服务的积累对许多现实世界的问题提出了严峻的挑战如服务分类或集群、服务发现、服务组合和服务注释。克服这些问题将大大简化分布式软件应用程序的开发过程。例如根据功能对Web服务进行分类将帮助用户更好地掌握整个服务库的功能结构。特定功能域内的垂直服务检索将极大地减少搜索空间提高匹配精度。然而这些分析任务和应用程序的一个关键挑战是寻找有效的服务表示例如低维向量通过这些表示可以准确计算服务之间的功能相似性。传统方法主要探索服务描述内容并学习一个主题分布向量来表示每个Web服务。例如为了获得聚类任务的Web服务表示Shi等人提出了一个单词嵌入增强主题模型该模型利用朋友单词来重新定义主题学习。类似地为了支持质量Web服务推荐Cao等人提出了一个两层主题学习模型从功能描述中导出mashup的表示。然而现有方法的一个常见问题是获取的表示通常依赖于任务编码信息仅有益于给定任务。此外使用主题模型学习的服务表示可能没有细粒度或区分性来衡量服务之间的紧密程度即主题分布向量表示一组离散概率值这些离散概率值不足以揭示服务之间的距离或相似性。除了内容信息之外服务通常彼此之间有频繁的连接进而形成一个复杂的服务链接网络其中节点可以是Mashup和API服务边表示它们之间的组合关系。网络结构通过边缘连接内在地揭示了服务之间丰富的显式和隐式语义关联例如相似的功能属性即链接到一个完全相同的API服务的两个mashup可以具有相似的功能属性。最近的网络科学研究表明我们可以从复杂的网络结构中学习节点的向量表示该网络结构假设具有相似拓扑结构的节点具有相似的表示。在本文中我们关注Web服务网络嵌入其目的是通过一个低维向量来表示每个服务例如Mashup和API并保留服务之间的功能相似性。该研究基于三个观察结果1网络中具有直接链接如组合关系的Mashup和API具有类似的功能如语义相关2 网络中链接到相同API服务的两个mashup具有相似的功能3 如果两个服务具有相似的功能那么它们应该具有相似的向量表示。此外大量研究表明一个复杂的网络可能会受到许多缺失链接的影响。例如在社交网络中两个用户没有链接不是因为他们不是朋友而是因为他们可能不知道对方的存在。类似地Mashup并不构成API服务这并不意味着它们在功能上不同而是因为选择了其他类似的API服务。由于我们的目标是在相似向量表示中映射具有类似功能的服务因此探索潜在/缺失的组合关系将增强网络中Mashup和API服务之间的相关性从而丰富表示学习。综上所述为了学习信息性和区别性服务表示我们认为有必要同时对观察到的网络链接、潜在链接和服务描述内容进行编码。图1示出了学习目标。我们整合网络结构例如观察到的和潜在的链接和内容信息例如描述和标签来学习服务的低维表示这样具有相似拓扑结构例如节点对2,3和4,6的服务可以映射为嵌入空间中的相似服务例如在二维欧氏空间中附近为了实现这一目标我们首先提出了一种新的概率主题模型来预测Mashup和API服务之间的潜在链接关系。然后我们采用一种有效的卷积学习模型来学习具有保存的服务网络结构和内容信息的服务表示。总之我们的贡献是三个方面的 1.我们提出了一个基于注意力的关系主题模型Att-RTM从Web服务文本内容和组合关系中学习潜在的主题然后使用它来预测Web服务之间的潜在关系。本文提出了一种注意力机制利用标签作为先验信息突出文本内容中与功能相关的词从而有效地进行主题学习和组合链接预测。 2.我们开发了基于图卷积网络的Service-GCN将网络结构和内容信息结合起来用于Web服务表示学习。在卷积学习过程中每个服务通过聚合来自所有链接邻接服务的特征来形成其表示。 3.我们通过在两个真实数据集上的三个常见任务描述了学习服务表示的优势。实验结果验证了我们提出的方法的有效性。本文的其余部分组织如下。第2节调查相关工作。第3节阐述了Web服务网络嵌入的问题。第4节介绍了链路预测和卷积表示学习模型。第5节描述了实验评估。第6节讨论了所研究的问题和方法。最后第7节对全文进行了总结。 2.相关工作在本节中我们将回顾与研究问题相关的现有工作包括Web服务表示学习和网络表示学习。 2.1 Web服务表示学习 Web服务表示学习通常作为许多基本任务的核心组件出现如Web服务聚类、注释和软件开发中的推荐其中服务需要表示为数字向量以实现相似性度量和计算。 Platzer等人利用向量空间模型VSM用高维向量表示服务描述每个关键字构成相关维度。VSM的一个明显缺点是向量的维数受词汇量的影响这可能会遇到维数灾难和特征稀疏的问题。Ma等人提出使用奇异值分解SVD来表示潜在语义空间中的服务。它可以显著降低特征向量的维数同时捕获Web服务之间的概念级相似性。然而奇异值分解的计算复杂度很高特别是当输入特征矩阵很大时。为了解决这个问题研究人员将注意力转移到基于潜在主题的Web服务特征表示上。例如Cassar等人提出使用概率潜在语义分析PLSA和潜在Dirichlet分配LDA从服务描述中提取语义然后用低维主题向量表示每个服务。然而只有在提供大量训练数据时naıve PLSA和LDA模型才能很好地工作。由于特征稀疏性例如短文本和噪声例如无关词的现实情景学习服务的质量表示是有问题的。为了缓解这些问题Li等人和Cao等人建议使用服务之间的链接关系来改进描述语义提取和表示学习其中链接服务被假定具有相似的主题分布。Shi el al.提出了一个单词嵌入增强LDA模型该模型利用朋友词重新定义每个当前采样单词的主题分配和语义表示。然而上述方法通常以内容为中心尽管很少有工作将服务组合链接用作辅助信息。明显的缺点是它们无法明确地建立服务之间的丰富结的关系结构。近年来一些工作将重点放在基于网络的服务表示学习上因为网络中具有相似拓扑结构的服务是用相似向量表示的。例如Adeleye等人采用了一种基于随机游走的嵌入方法来嵌入Web服务网络其中节点关系通过网络上的截断随机游走来捕获。我们之前的工作提出了一种基于转换的方法其中每个Mashup服务的表示都必须和所有成员API服务的组合表示类似。但是该方法仅对Web服务之间的直接链接关系进行建模。正如前面所讨论的可以挖掘潜在的链接以增强网络中服务之间的关系。现有的研究主要集中在无监督的服务表示学习上。事实上不同功能的Web服务通常来自不同的功能域或类别这些域信息可以被视为标签以便以有监督的方式设计更有效的表示学习过程。相比之下我们提出了一种通过同时编码观察到的网络结构、潜在网络结构和内容信息来嵌入 Mashup和API服务的新方法。此外我们的模型通过端到端监督分类和表征学习进行训练这与现有方法截然不同。 2.2一般网络表示学习一般来说现有的网络表示学习方法可以分为两类:结构保持和属性保持。结构保持方法只编码网络结构信息如节点间的邻接关系。DeepWalk首先在整个网络上执行截断的随机漫步以捕获邻接关系。然后采用一种有效的神经模型Skip-Gram来推导网络中所有节点的表示。Node2vec采用了比DeepWalk更灵活的方式来捕捉网络连接模式的多样性。设计了一种二阶随机游走策略对邻接节点进行采样可以紧密嵌入属于同一网络社区的节点。类似地LINE被提出用于大规模网络嵌入它可以同时编码一阶(如直接邻居)和二阶(如2跳邻接)节点密切关系。然而上述方法忽略了从非结构角度捕捉节点相似性的丰富节点内容信息。属性保持方法寻求同时编码网络结构和内容信息。Tu等人提出了一种利用节点标签信息的半监督网络嵌入方法MMDW。它基于DeepWalk派生的矩阵分解进行表示学习。Chen等人和Huang等人也提出加入节点标签来进行表示学习其中具有相同标签的节点映射到嵌入空间中相近的位置。近年来的研究表明文本内容是能够改善基于结构的表示学习的有益辅助信息特别是在网络结构稀疏的情况下。例如Le等人提出了一种结合了链接关系和内容信息的平面模型用于大规模引文网络表示学习。然而平面只考虑了观测到的直连链路精度的提高过度依赖于网络连接密度。Yang等人提出了一种基于矩阵分解的方法利用丰富的文本内容来细化网络结构但计算代价非常高。Liao等人提出了一种属性辅助的方法通过保留基于结构(如全球网络结构)和基于属性(如性别、位置和文本描述)的邻近性来嵌入社会网络。 3.问题定义及初步探讨本节定义了Web服务网络嵌入WSNE的问题然后介绍了一些预备知识。术语网络嵌入和网络表示学习可以互换使用。 3.1问题定义定义一网络服务定义二组合关系定义三Web服务网络 WSNE的形成 3.2准备工作 WSNE包含两个连续的部分1预测mashup和API之间的潜在链接2学习Web服务的向量表示。在本文中提出的链路预测模型是从关系主题模型RTM扩展而来的卷积服务表示学习建立在图卷积网络GCN的基础上。本节简要介绍RTM和GCN的学习机制。 3.2.1关系主题模型 RTM是文档及其链接的模型。对于每一对文档RTM将它们的链接建模为一个二进制随机变量该变量取决于它们的文本内容。因此RTM可被视为能够基于节点内容预测网络中节点之间的关系的预测模型即基于网页内容的相似性预测网页之间的超链接。 3.2.2图卷积网络 GCN从传统的卷积神经网络扩展到直接对图结构数据进行学习。给定一个输入网络G VEX其中V和E是节点和边的集合。X∈ R | V |×ℎ (ℎ 是特征的数量是所有| V |节点的特征矩阵例如Web服务的文本内容即Xj ∈ Rℎ 是节点vj的特征向量。GCN学习向量表示hvi ∈ Rd 对于每个节点vi∈ V通过保留其网络结构和内容信息。GCN采用卷积学习过程其中每个节点vi从所有有链接的邻居N(vi)中聚合信息例如V1生成其向量表示通过聚集例如平均池来自图2所示的邻居例如包括自身V3、V4、V5和V1的特征。该卷积学习过程可以表示为其中W∈R(hxd)是可学习参数b是偏置。f是一个激活函数例如Relu激活函数f(x)max(0,x)。h(vj)∈R(h)是初始化特征向量例如h(vj)X(j)h(vi)∈R(d)是节点vi的向量表示输出。对于一个单层GCN对于所有基于公式1的节点向量表示X(1)∈R(|V|xd)可以被写成其中AD(-1/2)(AI)D(-1/2)是正交化对称邻接矩阵A是网络G的邻接矩阵I是单位矩阵D(ii)是次数矩阵。单层GCN仅捕获表示学习的一阶邻接关系。为了保持高阶关系可以堆叠更多的GCN层同时为所有在第k层的节点提供新的表示的计算公式 4.方法概述该方法由两部分组成Web服务链接预测和Web服务网络嵌入学习。它们的描述如下。 4.1 Web服务链接预测这项研究的目的是在类相似的向量表示中映射功能相似的Web服务。输入是一个Web服务网络包含服务的链接结构和文本内容如图3所示。如前所述mashup和api之间的潜在联系有助于增强表示学习。例如当Mashup和API具有相似的文本内容但网络中没有直接链接时由于采用卷积表示学习依赖于通过图2所示边缘链接的特征因此无法有效地捕获内容相似性。为了解决这个问题我们提出了一个新的主题模型来预测服务网络中潜在链接的缺失该模型可以根据mashup和api的文本内容预测它们之间的链接。我们提出的主题模型从RTM扩展而来参考第3.2.1节。基本的RTM通过同等处理所有组成词来学习文档的主题分布。然而Web服务文本内容是面向功能的这意味着一些词与功能相关而另一些词则不太相关。这一观察启发我们在推断服务潜在主题的同时突出功能相关词。我们根据服务文本内容中每个单词与相应服务功能标签的相似程度如语义相似性量化其重要性。为此我们使用Word2vec将所有单词和标签映射到一个统一的语义空间在该空间中可以计算单词和标签之间的语义相似性。Word2vec是一种浅层神经网络模型用于表示具有低维向量的单词能够捕获单词之间的语义相关性即已知同义词在学习空间中是封闭的而反义词往往具有更大的距离。假设我们已经基于Word2vec获得了单词和标签的语义向量一个单词w(a,i)的重要度或注意力权重p(a,i)可通过以下公式计算其中WE(w(a),i)和WE(t(a),j)表示单词w(a,i)以及标签t(a,j)的语义向量。FC(tag(a))表示所有与服务a相关的S(a)函数标签的平均语义。通过对不同词语的不同处理我们提出了基于注意力的RTM (Att-RTM)用于Web服务链接预测如图4所示。表1总结了Att-RTM中使用的符号。和RTM相似(指3.2.1节),参数为Att-RTM是T分布T维主题分布对API或Mashup服务链接概率函数定义了分布在API和Mashup服务之间的联系。Att-RTM假设API和Mashup服务的文本内容及其链接是由算法1中总结的过程生成的。训练将所有服务文本内容和各自的词注意力权重(如Eq.4)作为输入。首先,模型为每一个主题t(1-3行)生成一个单词分布。然后生成每个API(第5行)和每个Mashup(第13行)的主题分布同时为每个API(第6-10行)和每个Mashup(第14-18行)生成其所有具有不同注意力权重的组成词。最后Att-RTM为每对API和Mashup服务生成一个二进制指示符(第20-24行)这取决于主题分配。在这篇文章中,我们对于每个Mashup服务根据Eq.11预测前K个最可能丢失的API 服务链接的可能。在这个实验中,我们把K设置为1,因为它提供了最佳的嵌入学习性能(例如,请参阅Fig.9(b)的K的影响)。 4.2Web服务网络嵌入本节通过基于GCN参考第3.2.2节的卷积学习同时对观察到的服务链接、预测的服务链接参考第4.1节和图3所示的服务文本内容进行编码详细介绍了Web服务网络嵌入。我们开发了如图6所示的服务GCN以获得Mashup和API服务的表示它采用了一种带有监督训练的进化学习机制参见图2中的插图。在第一个卷积层Mashup和API节点都执行特征聚合以形成各自的表示形式如下所示第一层输出的嵌入向量可以进一步反馈到第二层用于递归卷积学习从而捕获Web服务之间的二阶邻域关系。例如由于图6中节点5的表示在第一层卷积学习之后具有来自节点3的编码特征当节点7在第二层卷积学习中再次聚集来自节点5的特征时节点3的特征将并入节点7的新嵌入向量中。在第二个集合层Mashup和API服务的嵌入向量计算如下请参阅第3.2.2节的说明 5.性能评估我们通过在两个单词数据集上执行下游任务包括监督节点分类、无监督节点聚类和节点嵌入向量可视化来验证学习嵌入向量的性能。 5.1数据集网络服务这个数据集已经在原先的研究中被广泛的使用例如服务推荐和聚类。它包含19718个Web服务其中API和Mashup服务的数量分别为13460和6258。API和Mashup服务之间有26246个组合链接。每个服务都与一个功能描述和多个功能标签相关联。每个服务的平均单词数和标签数分别为36和4。在478个域中每个服务对应一个主要功能域如“视频”和“音乐”合成链接率为26246/13460x62580.031%这是非常低的部分原因是某些功能相关的API和Mashup服务未连接到网络上。我们根据观察到的和预测的Mashup和API服务之间的链接关系构建Web服务网络。在本文中由于节点依赖其邻接点进行卷积表示学习因此可以删除与网络中其他节点没有链接的独立服务。在链路预测之后例如预测链路的数量K 1 我们学习基于网络的服务表示该网络涉及10234个Web服务和38764个链接。维基我们还使用一个网页链接网络它可以类似于一个Web服务网络即网页和Web服务都以文本内容的形式呈现链接意味着各自的节点共享相似的文本内容。Wiki包含2405个网页和17981个链接。与Web服务类似每个Web页面以文本描述的形式呈现平均647个单词。每个网页都属于17个类别中的一个相关类别可作为实验中监督训练的标签。由于网页没有标签信息Att-RTM不能用作链接预测模型。相反我们使用RTM来预测网页之间的潜在关系。最后将所有预测链接与原始链接组合形成一个单一的网页网络。 5.2比较方法我们比较了下列基础方法 DeepWalk该方法仅保留基于整个网络上截断随机漫步的网络结构信息。它使用Skip Gram模型学习节点表示。 Node2vec与DeepWalk相比该方法通过同时捕获网络的局部结构和全局结构采取了更灵活的随机漫步过程。Node2vec只保留网络结构信息。 LINE它是一种结构保持方法对局部和全局网络结构进行编码。该方法采用边缘采样算法克服了经典随机梯度下降算法的局限性提高了有效性和推理的效率。 RTM它是一种关系主题模型利用节点内容和结构信息进行潜在主题学习。它直接使用学习到的潜在主题分布来表示节点。 Att RTM是图4中提出的用于链路预测的Att RTM模型。与RTM类似Att RTM学习潜在的主题分布表示服务。与RTM相比Att RTM的唯一区别在于在推断Web服务的潜在主题时引入了一种注意力机制来突出功能性词语。 PLANE它是RTM的扩展版本专门训练潜在的低维向量来表示每个文档节点。节点结构、文本内容和潜在主题保留在最终网络表示中。 TriDNR该方法同时利用网络结构、节点内容和标签信息进行节点表示学习。它基于这样一种假设即网络结构和内容可以相互增强共同表征节点之间的联系。 TWSRL这是一种主题感知的Web服务表示学习对统一表示学习编码网络内容和结构。 ARGA这是一个图自动编码器模型其中节点嵌入被训练以重构图结构。该方法可以在节点嵌入中保留网络结构和节点内容。 WSNE(nolink) 这是我们提议的方法的一种变体不包含链路预测过程。它基于本文提出的Service-GCN模型学习Web服务表示。 WSNE这是我们提出的方法它首先基于Att-RTM在Mashup和API服务之间形成链接预测然后基于Service-GCN学习服务表示学习。 5.3实验步骤 5.3.1评估任务在获得基于整个Web服务网络的Web服务矢量表示参考第5.1节后采用三个下游任务来评估学习矢量表示的质量监督服务分类评估网络嵌入方法是一项流行的任务其目的是根据学习到的表示将Web服务划分为不同的功能类别。无监督服务聚类这是一个流行的任务其目的是将Mashup或API服务分组到各自的功能类别中。我们首先获取Mashup和API服务的嵌入向量然后基于广泛使用的K-means算法执行无监督聚类。嵌入向量可视化为了直接比较Web服务嵌入的结果我们基于t-SNE将服务嵌入向量可视化到二维空间中。通常来自相同功能域的Web服务以相似的向量表示因此应该在二维空间中闭合。由于不同功能类别中的Web服务数量存在高偏差因此包含极少数量服务的类别将显著影响总体分类和集群性能。因为该算法会使大多数服务类别的训练产生偏差而使少数服务类别的训练不足。因此我们选择表2中所示的前20个类别来评估所有基线方法。 5.3.2评估标准 WSNE执行有监督的服务分类而对于其他方法我们首先在训练数据上使用线性核构建支持向量机分类器然后预测测试数据中所有节点的标签。性能通过两个广泛使用的指标进行评估对于无监督聚类任务使用K-均值算法对不同基线的学习服务表示进行聚类。与之前的工作类似我们采用了四个广泛使用的指标来比较聚类性能。它们是精度Acc、精度、F1度量F1和归一化交互信息NMI。这些测量值越大通过相应方法学习的服务表示的性能越好。 5.3.3参数设置无论是在经验上还是在实验上我们的方法都需要许多超参数。为了训练提出的Att-RTM模型根据先前的经验主题数量(T ) 设置为100参数αβη分别设置为0.1、0.05和2.0。对于Service-GCN模型的监督训练我们随机抽样具有已知用于训练的功能类别的Web服务节点的数目的p%。其余节点分为验证集和测试集其中10%用于参数优化90%用于测试。为了比较rest参数的默认设置如下。链路预测过程中预测的API服务数量(K)设置为1。我们使用1-layer Service-GCN作为默认模型。我们还将其与2-layer Service-GCN进行比较其中第一层(r ) 第二层(d) 嵌入维度设置为输入网络中涉及的服务功能类别总数。训练率p) 从10%到70%不等其中对于每个比率模型训练400次SGD学习率等于0.02。我们使用丢失和正则化技术来缓解过度匹配问题其中Service-GCN 1的丢失率和L2标准权重衰减设置为0.3和3e-5。对于每个训练样本的每个给定的比率p) 实验重复20次记录平均结果和标准偏差。对于其他基线方法我们使用文献中建议的参数设置其中提出了这些方法。请通过Github第1页上提供的链接参考它们的实现细节。 5.4实验结果 5.4.1Web服务分类结果对于表3所示的Web服务分类结果我们有以下主要观察结果 1 一般而言TriDNR、TWSRL和WSNE等内容保留方法的性能优于仅保留网络结构的方法如Deep-Walk和LINE。这是因为节点内容是描述节点之间属性的有用信息特别是当网络连接稀疏时。然而Web服务网络的节点内容可能包含噪声这可能导致次优的嵌入结果。例如与Att-RTM相比基于RTM的方法如RTM和PLANE的性能相对较差因为它们在主题训练和服务相似度计算中平等地处理所有单词特征例如功能词和噪声词。 2 在所有基于结构的方法即DeepWalk、LINE和Node2vec中Node2vec在表3中观察到的服务表示学习中表现最好。原因是Node2vec采用了更灵活的相邻采样策略该策略在广度优先采样和深度优先采样之间进行插值以确定服务之间的功能关系。从表3中我们还可以观察到Att-RTM显著优于基本RTM模型。这是因为服务功能描述中有着不相关或嘈杂的词汇特征。Att-RTM中引入的注意力机制有助于在学习Mashup和API服务的基于主题的表示时突出功能相关词。 3 我们可以观察到在大多数情况下WSNE的结果优于TWSRL和TriDNR。有两个可能的原因。首先尽管这三种方法都对服务结构和内容信息进行了编码但WSNE比TriDNR和TWSRL更有效。因为在特征学习中它采用监督训练可以自动提取与分类任务一致的重要特征。第二WSNE 对网络上的所有节点采用卷积学习范式允许API和Mashup服务对一阶组合关系进行编码以实现高效的表示学习。相反TWSRL采用了基于translation的学习其中只有Mashup服务可以对表示学习的组合关系进行编码。与仅对一阶合成关系建模的WSNE相比 TriDNR它依赖于整个网络上的随机漫步过程来捕获服务之间的高阶关系这可能会产生噪声因为游走中的两个API服务可能具有不同的功能并且在嵌入空间中应该不同。此外如表3所示所提出的方法WSNE有了很大的改进。这表明预测API和Mashup服务之间的潜在组合链接有助于丰富服务网络连通性和增强服务表示学习。我们进一步进行Friedman-Nemenyi测试以比较表3中不同训练率下Macro-F1和Micro-F1平均结果的不同方法。在实验中Friendman零假设被拒绝的p值0.05。表3中各种方法计算的p值为1.4E-13这意味着不同嵌入方法的结果不同。然后我们进行Nemenyi后续检验以检验各个方法之间的显著差异。我们可以从图6a中观察到WSNE仅与LINE、Att -RTM、PLANE、RTM和Deep-Walk显著不同其中相应的通用语言效果大小CLES分别为0.98、1.0、1.0、1.0和1.0。Friedman-Nemenyi检验不能明显区分WSNE和其他基线方法包括TWSRL、ARGA和Node2vec之间的差异。然而表3中的测试表明在不同的训练率下WSNE明显优于其他基线。 5.4.2 Web服务聚类结果我们通过无监督聚类任务比较所有基线方法。对于每个基线使用K-means算法对表2所示的前20个功能类别中的服务的学习服务表示进行聚类。对于K-means算法我们将聚类数设置为20对应于20个相应的功能域。图7a显示了Mashup服务聚类性能我们可以得出结论同时保留网络结构和内容的方法如WSNE、ARGA和TWSRL通常比仅保留网络结构的方法如DeepWalk和LINE性能更好这与服务分类结果的观察结果一致。Att-RTM始终优于RTM w.r.t 所有的指标这再次证明了对功能相关词给予更高的注意力而不是平等处理所有词是重要的。与其他方法相比所提出的WSNE模型改善很大即WSNE的平均准确度比TWSRL提高了19.0%这验证了与其他方法相比学习的嵌入向量在区分不同功能簇方面更有意义。类似的观察结果可以从图7b中的API服务聚类结果中得出。有趣的是观察到WSNE在API服务集群中比在Mashup服务集群中实现了更明显的改进。原因可能是API的功能没有mashup复杂因此很容易学习API服务在不同功能域中的不同表示。 5.4.3 Web网页分类与聚类结果我们还使用Web网页网络例如类似于Web服务网络评估WSNE通过进行有监督的网页分类和无监督的网页聚类来获取数据。对于表4中的分类结果我们可以观察到与RTM等其他基线相比WSNE并没有显著改善例如p等于10%和ARGA例如当p相当于10%或50%关于Macro-F1。然而WSNE的Micro-F1性能始终优于其他方法即与ARGA和TWSRL相比平均Micro-F1的性能分别提高了8.4%和13.3%。与其他方法相比WSNE的显著优势有三1预测网络中节点之间的潜在链接关系有助于丰富和改进节点表示学习2 基于GCN的卷积学习能够有效获取网络中节点之间的关系3 WSNE采用端到端的有监督训练从标签信息中获益有效学习有意义的节点表示即具有相同标签的节点映射为相似表示。图6b显示了不同方法组的Nemenyi测试及其分类结果如表4所示。我们可以观察到WSNE与LINE、DeepWalk和PLANE相比有显著不同后者的通用语言效果大小分别为0.56、0.94和1.0。此外表4中的测试表明与Micro-F1结果相比WSNE明显优于所有其他基线方法。对于图7c中的网页聚类结果我们可以得出以下两个主要观察结果。首先与除Node2vec外的其他方法相比WSNE在所有四个评估指标方面都优于其他方法。其次WSNE与Node2vec w.r.t F1Acc和精度的综合测量没有显著差异。但WSNE比Node2vec具有更好的NMI性能这意味着WSNE可以在集群之间产生更明显的边界。 5.4.4 Web嵌入向量可视化我们可视化在二维空间中服务的低维向量以获得对嵌入结果的直观观察参见第5.3.1节。所选10个功能类别的RTM、Att-RTM、Node2vec和WSNE w.r.t的可视化结果如图8所示其中x和y 轴表示服务在欧几里得空间中的位置。所提出的Att-RTM模型生成的服务表示比RTM更具意义即social类别中的服务彼此之间更紧密。这是因为RTM只是平等地处理服务文本内容中的单词而Att-RTM可以将更多的注意力分配给功能相关单词而不是无关单词这有助于学习改进的服务主题表示。此外我们还可以观察到Node2vec和WSNE比Att-RTM和RTM产生了更有意义的可视化结果这与服务分类表3和服务聚类图7a和b中观察到的比较一致。WSNE在不同功能类别的服务之间呈现出更明显的边界这证明了所提出的模型在学习有意义的低维Web服务表示方面的有效性。 5.4.5卷积层和预测链路的影响我们将WSNE模型分别与1层和2层服务GCN进行了比较。从图9a可以看出无论是Macro-F1还是Micro-F1单层模型都优于双层模型。其主要原因是虽然2层模型允许在嵌入空间中保留服务之间的二阶关系但它同时会在网络上的API服务之间强制进行不相关的特征传播因为在special Mashup中组成的API成员通常呈现不同的功能属性。换句话说链接到同一Mashup的不同成员API节点例如图5中的节点1和节点5是不同的它们之间的特征共享可能会恶化服务之间的关系。图9b显示了为每个Mashup服务预测的API服务的数量(K ) 的影响。我们可以观察到在1之后更大的K值往往产生差的表现。 6.讨论 Web服务的低维向量表示是许多下游应用的基础包括Web服务功能分类和功能聚类这为比较Web服务之间的功能相似性提供了一种有效的方法。我们认为在Web服务的向量表示中保留网络结构和内容信息是必要的。然而本文采用的卷积学习依赖于丰富的结构链接来捕获服务之间的相似性这促使我们基于服务文本内容之间的相似性来预测潜在的网络链接。我们执行下游分类和聚类任务以验证学习向量表示的质量。不同Web服务类别的评估结果差异很大如图9c所示。最近的研究表明当多个类别的样本数量不平衡时总体结果可能会受到样本数量很少的类别的影响。因此我们选择包含大多数服务的前20个类别来评估所有基线方法。通过比较我们得出结论WSNE , TWSRL和TriDNR显著优于其他以内容为中心的方法这回答了第一个研究问题参见第3.1节即以网络为中心的方法可以有效学习有意义的服务表示。第二个研究问题参考第3.1节是通过观察WSNE有监督嵌入学习优于带有无监督的训练的以网络为中心和以内容为中心的基线。最后我们观察到与WSNE相比WSNE获得了很大的性能增益 , 回答了第三项本文提出的问题参见第3.1节。尽管图9a中的比较表明采用1-layer Service-GCN仅保留一阶结构关系是合理的但是我们认为研究服务之间的高阶相关性是有希望的。例如如果两个Mashup服务有一些共同的成员API服务那么它们的功能相似性可以使用2-layer Service-GCN进行建模。 7.总结在本文中我们研究了一个Web服务网络嵌入问题该问题旨在通过保留网络结构和内容信息用低维向量表示Web服务。我们分析了预测Web服务之间缺失或潜在组合链接的必要性。为了提高预测精度我们提出了一种基于功能注意力的概率模型Att-RTM该模型可以突出功能相关词同时推断服务的潜在主题。为了执行服务嵌入学习我们采用了Service-GCN以有效捕获服务文本内容和结构链接用于监督向量表示学习。Att-RTM模型可以进行FLINE训练且Service-GCN的复杂性与GCN相同后者为O(|E|d), 其中| E |是网络上的边总数并且d是服务表示的维度。我们在两个真实数据集上进行了实验来评估所提出的方法。结果表明1Web服务文本内容可能含有噪声词有助于突出功能词2 Att-RTM模型能够有效地表示潜在主题3 我们的对于服务表示的深度框架显著优于最先进的方法。

查看全文

http://www.zqtcl.cn/news/148157/