建设银行网站登陆不上,外包公司 网站建设 深圳,全球快速建站工具,北京网站制作开发公司探索LLM在图上学习的潜力 摘要介绍初步知识 摘要
Learning on Graph已经引起了极大的关注#xff0c;因为它在现实世界中有广泛的应用。在具有文本节点属性的图形上进行学习的最流行的流程主要依赖于图神经网络#xff08;GNN#xff09;#xff0c;并利用浅层文本嵌入作为… 探索LLM在图上学习的潜力 摘要介绍初步知识 摘要
Learning on Graph已经引起了极大的关注因为它在现实世界中有广泛的应用。在具有文本节点属性的图形上进行学习的最流行的流程主要依赖于图神经网络GNN并利用浅层文本嵌入作为初始节点表示但这在通用知识和深入语义理解方面存在局限性。近年来大型语言模型LLM被证明具有广泛的常识和强大的语义理解能力已经彻底改变了处理文本数据的现有工作流程。本文旨在探索LLM在图机器学习中的潜力特别是节点分类任务并研究两种可能的流程
LLM作为增强器。利用LLM来增强节点的文本属性借助其庞大的知识然后通过GNN生成预测结果。试图直接使用LLM作为独立的预测器。LLM作为预测器。
并在各种设置下进行了全面而系统的研究。
介绍
图在各个学科和应用中无处不在涵盖了各种现实世界的场景。其中许多图具有与文本属性相关联的节点从而产生了具有文本属性的图例如引用图和产品图。例如在OGBN-PRODUCTS数据集中每个节点表示一个产品其相应的文本描述被视为节点的属性。这些图在各个领域广泛应用从社交网络分析、信息检索到各种自然语言处理任务。
鉴于 文本属性图TAGs 的普遍存在旨在探索如何有效处理这些图重点关注节点分类任务。直观地说TAGs提供了节点属性和图结构信息。因此在建模它们的相互关系时有效捕捉两者是很重要的。图神经网络GNNs已成为处理图结构数据的事实标准技术通常利用消息传递范式来有效捕捉图结构。为了编码文本信息传统的流程通常使用 非上下文化的浅层嵌入 例如词袋模型和Word2Vec嵌入就像在常见的图基准数据集中看到的那样随后使用GNN来处理这些嵌入。最近的研究表明这些非上下文化的浅层嵌入存在一些限制例如无法捕捉多义词和语义信息的不足这可能导致在下游任务上表现不佳。 文本属性图是一种图结构其中节点表示文本数据而边代表节点之间的关系。每个节点都具有与之相关联的文本属性这些属性可以是节点的文本内容、关键词、标签或其他与文本相关的信息。 例如有三篇新闻文章“科学家发现新的行星”“太阳系中的行星数量增加到9颗”“最新研究表明冥王星可能是一颗卫星”。我们可以将这三篇文章作为文本属性图的节点并且每个节点的文本属性是相应文章的内容。然后我们可以根据文章之间的关系添加边。例如如果两篇文章共同提到了“行星”我们可以在它们之间添加一条边表示它们之间的相关性。这就构建了一个文本属性图其中节点表示新闻文章边表示它们之间的关系。 “Non-contextualized”非上下文化是指在自然语言处理NLP中表示不考虑上下文信息的模型或表示方法。在这种模型中每个词或短语的表示是固定的不受其上下文环境的影响。 传统的非上下文化表示方法包括词袋模型Bag-of-Words其中每个词都被视为独立的特征无论其在句子中的位置或上下文如何。在词袋模型中每个词被编码成一个向量表示通常是通过词频、TF-IDF等统计方法得到。 非上下文化表示方法的局限在于无法捕捉词语的语义和上下文信息。由于缺乏上下文的考虑非上下文化模型可能无法处理词语的多义性、歧义性以及依赖于上下文的含义变化。 非上下文化的浅层嵌入non-contextualized shallow embeddings是一种将词语映射到固定维度向量表示的技术这些向量表示不考虑词语在上下文中的语义信息。这种浅层嵌入方法通常基于统计模型或预定义的规则将每个词语映射到一个静态的向量表示。 常见的非上下文化浅层嵌入方法包括词袋模型Bag-of-Words和TF-IDFTerm Frequency-Inverse Document Frequency等。在词袋模型中每个词语被视为独立的特征词袋模型将文本表示为词语的频率向量其中每个维度表示一个词语在文本中出现的频率。TF-IDF则是在词袋模型的基础上引入了逆文档频率的权重用于衡量词语在整个语料库中的重要性。 与这些非上下文化的浅层文本嵌入相比大型语言模型LLMs通过在大规模文本语料库上进行预训练提供了大量的上下文感知知识和优越的语义理解能力。这种通过预训练获得的知识已经在下游的自然语言处理任务中引起了一系列的革命。例如ChatGPT和GPT4等模型拥有数千亿个参数展现了在各个领域的众多文本相关任务上优越的性能。
考虑到这些LLMs处理和理解文本数据的卓越能力一个相关的问题出现了
能否利用LLMs的知识来弥补传统GNN流程中上下文化知识和语义理解的不足除了通过预训练学习到的知识LLMs在具有隐式图结构的任务上取得了初步的成功例如推荐、排序和多跳推理其中LLMs被用于进行最终的预测。LLMs是否可以在具有显式图结构的情况下独立执行预测任务而不仅仅是与GNN集成
本文旨在通过进行一系列广泛的实证分析对这两个问题进行初步调查。特别地关键挑战是如何为图学习任务设计一个与LLMs兼容的流程。 因此探索了两种潜在的流程来整合LLMs (1)LLMs作为增强器采用LLMs来增强文本信息随后GNNs利用改进后的文本数据生成预测。 (2)LLMs作为预测器LLMs被适应性地用于生成最终的预测结果其中结构和属性信息完全通过自然语言呈现。
在这项工作中探索利用LLMs解决与图相关的问题并旨在加深对LLMs在图机器学习中潜力的理解重点关注节点分类任务。首先旨在研究LLMs如何通过利用其丰富的知识和语义理解能力来增强GNNs。显然不同类型的LLMs具有不同的能力水平而更强大的模型通常伴随着更多的使用限制。因此设计针对不同类型模型的不同策略并在这些使用限制的约束下更好地利用它们的能力。其次希望探索LLMs如何作为预测器适应显式图结构。一个主要的挑战在于设计一个提示使LLMs能够有效地利用结构和属性信息。为了应对这一挑战尝试探索什么样的信息可以帮助LLMs更好地理解和利用图结构。通过这些研究得出了一些有见地的观察并对LLMs在图机器学习中的能力有了更好的理解。
贡献 贡献总结如下
探索了两个潜在的流程将LLMs整合到处理文本属性图中即LLMs作为增强器和LLMs作为预测器。第一个流程将LLMs作为属性增强器与GNNs无缝整合。第二个流程直接使用LLMs生成预测结果。对于LLMs作为增强器我们引入了两种策略通过LLMs增强文本属性。我们进一步进行了一系列实验比较了这些增强方法的有效性。对于LLMs作为预测器我们设计了一系列实验探索LLMs在利用结构和属性信息方面的能力。通过实证结果我们总结了一些原始观察结果并提供了新的见解。
关键见解 通过全面的实证评估得出了以下关键见解
对于LLMs作为增强器使用深度句子嵌入模型为节点属性生成嵌入表示既有效又高效。对于LLMs作为增强器利用LLMs在文本层面增强节点属性也可以改善下游性能。 对于LLMs作为预测器LLMs展现了初步的有效性但我们需要注意其不准确的预测和潜在的测试数据泄漏问题。LLMs展示了作为节点标签的良好注释者的潜力因为它们的一部分注释是准确的。
初步知识
在本节中介绍本工作中使用的概念、符号和问题设置。主要研究文本属性图上的节点分类任务这是图学习领域中最重要的下游任务之一。接下来首先给出文本属性图的定义。
文本属性图是一种图结构其中节点具有与之关联的文本属性。每个节点都有一个文本特征可以是一个文档、一段文字或一个词语。图中的边表示节点之间的关系或连接。
节点分类任务旨在将图中的节点划分到不同的预定义类别中。给定一个包含文本属性的图我们希望通过学习节点之间的连接和节点的文本特征能够准确地对未标记节点进行分类。
在节点分类任务中使用监督学习方法。将一部分节点标记为已知类别并使用这些标记的节点作为训练集。然后利用已知节点的标签和它们之间的连接关系来预测未知节点的类别。
文本属性图上的节点分类任务是一个典型的图学习问题它在社交网络分析、推荐系统和信息检索等领域中具有广泛的应用。通过利用节点之间的连接和节点的文本属性我们可以更好地理解和分析复杂的关系网络。
定义1文本属性图TAG TAG G s G_s Gs被定义为一个由节点V和对应的邻接矩阵A ∈ R|V|×|V|组成的结构。对于每个节点 v i v_i vi ∈ V它与一个文本属性相关联表示为 s i s_i si。
本研究专注于节点分类这是最常见的图相关任务之一。
定义2TAG上的节点分类 给定一组带有标签的节点L ⊂ V及其标签yL目标是预测剩余未标记节点U V \ L的标签yU。
以广为流行的 引文网络数据集OGBN-ARXIV作为一个说明性的例子。在这样的图中每个节点代表计算机科学子类别中的一篇论文节点的属性体现了论文的标题和摘要。边表示引用关系。任务是将论文分类到它们对应的类别中例如cs.cv即计算机视觉。接下来介绍本研究中采用的模型包括图神经网络和大型语言模型。 OGBN-ARXIV是一个广泛使用的引文网络数据集用于研究和评估图学习算法在学术论文分类任务上的性能。该数据集基于计算机科学领域的论文引用关系构建而成。 OGBN-ARXIV数据集包含了来自arXiv预印本数据库的论文每篇论文都有一个主题标签。数据集中的节点表示论文节点之间的边表示引用关系即一篇论文引用了另一篇论文。节点的属性是论文的标题和摘要。 任务是将论文分为多个预定义的学科类别例如计算机视觉、机器学习、自然语言处理等。这是一个常见的节点分类任务旨在根据论文的引用关系和文本信息将未标记的论文正确分类。 OGBN-ARXIV数据集被广泛用于研究图神经网络和其他图学习方法在学术论文分类任务上的性能和效果。它提供了一个标准的基准数据集使得不同的算法可以进行比较和评估。 图神经网络Graph Neural NetworksGNNs 在应用于节点分类的文本属性图TAGs时利用节点之间的结构交互。给定初始节点特征h0_iGNNs通过消息传递的方式从相邻节点中聚合信息更新每个节点的表示。第 l l l层可以表示为 在这里AGG通常是聚合函数例如求和或最大值。UPD和MSG通常是一些可微分函数例如多层感知机MLP。最终的隐藏表示可以通过全连接层传递用于进行分类预测。
大语言模型 在本工作中主要使用术语“大型语言模型LLM”来表示这些模型。尽管预训练目标的多样性但这些LLMs的共同目标是利用在预训练阶段获得的知识并将其重新应用于各种下游任务。
根据它们的接口具体考虑它们的嵌入是否对用户可见我们在本工作中将LLMs大致分类如下
定义3可见嵌入型LLMs 可见嵌入型LLMsEmbedding-visible LLMs提供对它们的嵌入的访问权限允许用户与和操作底层的语言表示交互。可见嵌入型LLMs使用户能够提取特定单词、句子或文档的嵌入并使用这些嵌入执行各种自然语言处理任务。可见嵌入型LLMs的示例包括BERT 、Sentence-BERT 和Deberta。
定义4不可见嵌入型LLMs 不可见嵌入型LLMs不直接提供对它们的嵌入的访问权限也不允许用户操作底层的语言表示。相反它们通常作为网络服务部署并提供受限的接口。例如ChatGPT 及其API仅提供基于文本的接口。用户只能通过文本交互与这些LLMs进行交互。
除了接口之外LLMs的大小、能力和模型结构也是决定如何利用LLMs进行图形处理的关键因素。因此我们考虑以下四种类型的LLMs:
预训练语言模型Pre-trained Language ModelsPLMs 使用术语“预训练语言模型”来指代那些相对较小的大型语言模型如BERT 和Deberta可以对下游数据集进行微调。值得注意的是严格来说所有的LLMs都可以看作是PLMs。在这里采用了像BERT这样的模型的通用术语以便与其他LLMs区分开来这是根据一篇最近的论文的常规做法。
深度句子嵌入模型Deep Sentence Embedding Models 这些模型通常以PLMs作为基础编码器并采用双编码器结构。它们进一步以有监督或对比方式对模型进行预训练。在大多数情况下这些模型不需要针对下游任务进行额外的微调。这些模型可以进一步分为本地句子嵌入模型和在线句子嵌入模型。本地句子嵌入模型是开源的可以在本地访问其中Sentence-BERTSBERT是一个例子。另一方面在线句子嵌入模型是闭源的并部署为服务其中OpenAI的text-ada-embedding-002是一个例子。
大型语言模型Large Language ModelsLLMs 与PLMs相比大型语言模型具有数量级更多的参数展现出显著增强的能力。LLMs可以分为两种类型。 1第一种类型是开源LLMs可以在本地部署为用户提供对模型参数和嵌入的透明访问。然而这些模型的巨大规模带来了挑战因为对它们进行微调可能非常繁琐。开源LLMs的一个典型例子是LLaMA 。 2第二种类型的LLMs通常部署为服务对用户界面施加了限制。在这种情况下用户无法直接访问模型参数、嵌入或逻辑。ChatGPT 和GPT4等最强大的LLMs属于这种类型。
在这四种LLMs中PLMs、深度句子嵌入模型和开源LLMs通常是可见嵌入型LLMs而闭源LLMs是不可见嵌入型LLMs。