合肥网站优化方案,网站建设模板套用,wordpress主题 购买,漯河 网站建设千呼万唤始出来#xff01;阿里妈妈正式公布重磅开源项目——图深度学习框架Euler。这是国内首个在核心业务大规模应用后开源的图深度学习框架。此次开源#xff0c;Euler内置了大量的算法供用户直接使用#xff0c;相关代码已经可在GitHub上进行下载。
图学习和深度学习都…千呼万唤始出来阿里妈妈正式公布重磅开源项目——图深度学习框架Euler。这是国内首个在核心业务大规模应用后开源的图深度学习框架。此次开源Euler内置了大量的算法供用户直接使用相关代码已经可在GitHub上进行下载。
图学习和深度学习都是人工智能的一个分支作为阿里巴巴旗下的大数据营销平台阿里妈妈创新性地将图学习与深度学习进行结合推出了Euler可帮助大幅度提升营销效率。Euler已在阿里妈妈核心业务场景进行了锤炼和验证同时在金融、电信、医疗等涉及到复杂网络分析的场景中也具有很高的应用价值。例如用户可以利用Euler对基于用户交易等金融数据构建的复杂异构图进行学习与推理进而应用于金融反欺诈等场景。
下面让我们一起走进Euler的世界。 Euler 开源地址
https://github.com/alibaba/euler
1. 概述
过去几年随着数据规模和硬件计算力的迅速增长深度学习技术在工业界被广泛应用并产生了巨大的技术红利。当前应用已经相对成熟下一步的技术红利在哪里还在积极探索之中。图神经网络将端到端学习与归纳推理相结合有望解决深度学习无法处理的关系推理、可解释性等一系列问题。对结构知识的表达、计算和组合泛化是实现具备human-like AI的关键图神经网络有希望在这些方面形成突破使得机器能力进一步提升因此对图神经网络的深入应用有希望形成下一波技术红利。
图作为表达能力很强的通用的数据结构可以用来刻画现实世界中的很多问题例如社交场景的用户网络、电商场景的用户和商品网络、电信场景的通信网络、金融场景的交易网络和医疗场景的药物分子网络等等。相比文本、语音和图像领域的数据比较容易处理成欧式空间的Grid-like类型适合现有的深度学习模型处理图是一种非欧空间下的数据并不能直接应用现有方法需要专门设计的图神经网络系统。
1.1Euler的核心能力
1大规模图的分布式学习
工业界的图往往具有数十亿节点和数百亿边有些场景甚至可以到数百亿节点和数千亿边在这样规模的图上单机训练是不可行的。Euler支持图分割和高效稳定的分布式训练可以轻松支撑数十亿点、数百亿边的计算规模。
2支持复杂异构图的表征
工业界的图关系大都错综复杂体现在节点异构、边关系异构另外节点和边上可能有非常丰富的属性这使得一些常见的图神经网络很难学到有效的表达。Euler在图结构存储和图计算的抽象上均良好的支持异构点、异构边类型的操作并支持丰富的异构属性可以很容易的在图学习算法中进行异构图的表征学习。
3图学习与深度学习的结合
工业界有很多经典场景例如搜索推荐广告场景传统的深度学习方法有不错效果如何把图学习和传统方法结合起来进一步提升模型能力是很值得探索的。Euler支持基于深度学习样本的mini-batch训练把图表征直接输入到深度学习网络中联合训练。
4分层抽象与灵活扩展
Euler系统抽象为图引擎层、图操作算子层、算法实现层三个层次可以快速地在高层扩展一个图学习算法。实际上Euler也内置了大量的算法实现供大家直接使用。
1.2 Euler内置的算法实现
考虑到框架的易用性我们内置了多种知名算法以及几种我们内部的创新算法。所有实现我们仔细进行了测试保证了算法运行效率且算法效果与原论文对齐。用户无需进行开发注入数据到平台后可以直接使用。我们内置的算法列表见下表。有关我们内部算法的详细信息请见2.3节。 2. 系统设计
Euler系统整体可以分为三层最底层的分布式图引擎中间层图语义的算子高层的图表示学习算法。
下边我们分开描述各个层次的核心功能。 2.1分布式图引擎
为了支持我们的业务我们不仅面临超大规模图存储与计算的挑战还需要处理由多种不同类型的点边及其属性构成异构图的复杂性。我们的分布式图引擎针对海量图存储分布式并行图计算及异构图进行了优化设计确保了工业场景下的有效应用。
首先为了存储超大规模图数十亿点数百亿边Euler必须突破单机的限制从而采用了分布式的存储架构。在图加载时整张图在引擎内部被切分为多个子图每个计算节点被分配1个或几个子图进行加载。
为了充分利用各个计算节点的能力在进行图的操作时顶层操作被分解为多个对子图的操作由各个节点并行执行。这样随着更多节点的加入我们可以得到更好的服务能力。其次我们引入了多replica的支持。从而用户可以灵活平衡shard与replica的数量取得更佳的服务能力。最后我们针对图表示学习优化了底层的图存储数据结构与操作算法单机的图操作性能获得了数倍的提升。
多种不同类型的边点与属性所组成的异构图对很多复杂的业务场景必不可少。为了支持异构图计算能力底层存储按照不同的节点与边的类型分别组织。这样我们可以高效支持异构的图操作。
2.2中间图操作算子
由于图学习算法的多样性以及业务的复杂性固定的某几种甚至几十种算法实现无法满足客户的所有需求。所以在Euler设计中我们围绕底层系统的核心能力着重设计了灵活强大的图操作算子且所有算子均支持异构图操作语义。用户可以利用它来快速搭建自己的算法变体满足独特的业务需求。
首先Euler分布式图引擎提供了C的API来提供所有图操作。基于这个API我们可以方便的基于某个深度学习框架添加图操作的算子从而利用Euler C接口访问底层图引擎的能力。我们支持广泛使用的深度学习框架比如阿里巴巴的X-DeepLearning与流行的TensorFlow。后继我们也会考虑支持其它的深度学习框架比如PyTorch。
利用灵活的图操作算子机器学习框架可以在每个mini-batch与Euler交互动态扩充与组织训练样本。这样Euler不仅支持传统的以图为中心的学习模式且可以把图学习的能力注入传统的学习任务实现端到端训练。
按照功能分类我们的核心系统提供的API可以分类如下
全局带权采样点和边的能力。主要用于mini-batch样本的随机生成以及Negative Sampling。
基于给定节点的邻居操作。这个是图计算的核心能力包括邻居带权采样取Top权重的邻居等。
点/边的属性查找。这个能力使得算法可以使用更丰富的特征而不仅限于点/边的ID特征。
2.3高层算法实现
如1.2节所述除了LINE算法以外我们实现的算法可以分为随机游走与邻居汇聚两大类算法。有关外部算法的详细信息请参见1.2节提供的论文链接。下面我们详细介绍内部的三个创新算法相关论文的链接我们会在github上给出。
Scalable-GCN
它是一种高效的GCN训练算法。GCN以及更一般的Graph Neural Network (GNN)类的方法由于能有效的提取图结构信息在许多任务上均取得了超过以往方法的效果。但是GCN的模型会引入巨大的计算量导致模型的训练时间不可接受。Scalable-GCN在保证优秀效果的前提下把mini-batch GCN的计算复杂度从层数的指数函数压到线性。这使得在阿里妈妈的海量数据下应用三层GCN成为可能广告匹配的效果获得了显著提升。
LsHNE
LsHNE是我们结合阿里妈妈搜索广告场景创新地提出一种无监督的大规模异构网络embedding学习方法。区别于DeepWalk类算法LsHNE的特点包括a) 采用深度神经网络学习表达可以有效融合Attribute信息b)考虑embedding表示的距离敏感需求提出两个负采样原则分布一致性原则和弱相关性原则c)支持异构网络。
LasGNN
LasGNN是一种半监督的大规模异构图卷积神经网络学习方法, 它有效融合了图结构知识信息和海量用户行为信息大幅提升了模型精度是工业界广告场景下首次应用半监督图方法。该方法有多处创新例如将metapath的思想应用于图卷积网络中并提出了metapathGCN模型有效解决了异构网络的卷积问题提出了metapathSAGE模型在模型中我们设计高效的邻居采样的方法使得大规模的多层邻居卷积成为可能。
3. 应用实例
Euler平台已经在阿里妈妈搜索广告的多个场景下广泛实用并取得了出色的业务效果例如检索匹配场景、CTR预估场景、营销工具场景和反作弊场景等。我们以匹配场景的为例来看下Euler的应用。
广告匹配的任务是给定用户搜索请求匹配模块通过理解用户意图快速准确地从海量广告中找到高质量的小规模候选广告集输送给下游的排序模块进行排序。
我们首先使用一些传统的挖掘算法从用户行为日志、内容属性等维度挖掘出Query(查询词), Item(商品)和Ad(广告)的多种关系然后利用Euler平台的LsHNE方法学习图中节点的embedding这里节点embedding后的空间距离刻画了原来图中的关系对于在线过来的请求通过计算用户查询词向量、前置行为中节点向量和广告节点向量之间的距离进行高效的向量化最近邻检索可以快速匹配到符合用户意图的广告。图2展示了LsHNE方法的离线和在线流程。具体图3展示了样本构造和网络结构示意。 原文链接 本文为云栖社区原创内容未经允许不得转载。