南县网站建设,网站设置页面指什么,郑州企业网站推广,重庆响应式网站建设公司泽宇个人一直认为强化学习是建模动态系统最好的方法之一#xff0c;通过与环境的不断交互#xff0c;在动作选择和状态更新的动态过程中逐渐达到优化目标。因此#xff0c;本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容#xff0c;包括知识图谱推理…泽宇个人一直认为强化学习是建模动态系统最好的方法之一通过与环境的不断交互在动作选择和状态更新的动态过程中逐渐达到优化目标。因此本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容包括知识图谱推理、自动驾驶、时序推理、对话式问答系统和推荐系统。 1 知识图谱推理
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.
Wenhan Xiong, Thien Hoang, and William Yang Wang
核心贡献这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径这个路径搜索的过程就可以看成是一个马尔可夫决策过程因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数保证在知识图谱推理中能够同时考虑精度、多样性和效率。
这个任务简单来说可以看成是一个简单的问答系统给定一个实体和关系智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径且这条路径能够很好的表示给定的关系。 了解强化学习基本概念的朋友应该知道强化学习具体的方法主要有深度Q网络DQN和基于策略梯度的方法Policy-based其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求而基于策略梯度的方法最核心的几个组成部分包括环境、动作Actions、状态States、奖励Rewards、策略网络Policy Network。接下来针对这篇论文分别介绍这几个部分对应的内容。
环境整个知识图谱就是强化学习任务中的环境需要从知识图谱中找到满足目标的路径。
动作所有的关系组成动作空间每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。
状态智能体的状态就是智能体当前在知识图谱中所处的位置状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。
奖励奖励可以评价当前所处状态的质量这篇论文中用三种评价指标来定义奖励包括 全局精度站在全局的角度来看如果智能体走到这一步之后的路径能否到达目标实体。 路径效率通过观察发现短路径比长路径更加可靠因此可以用路径的长度来衡量推理效率。 路径多样性为了让每一次训练选择的路径能够更加多样而不是重复选择到之前已经走过的路径定义当前路径与已存在路径之间的多样性。
策略网络这里策略网络的设计就是一个两层的全连接网络将当前状态向量映射为可能动作的分布概率。
训练过程中为了加速强化学习的收敛类似于AlphaGo这篇论文也采用了广度优先搜索学习有监督的策略然后用蒙特卡洛策略梯度更新参数更多的训练细节详见论文。
之后也有一些研究在这篇论文的基础上进行了改进总体框架都是一样的知识加入了一些训练策略例如action drupout和reward shaping可以增加动作选择的多样性和提供更有效的奖励函数。此外还有一些在强化学习的基础上引入逻辑规则来引导路径的搜索。 2 自动驾驶
Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA 2021.
Xiaobai Ma, Jiachen Li, Mykel J. Kochenderfer, David Isele, Kikuo Fujimura
核心贡献这篇论文发表在机器人顶会ICRA研究了在自动驾驶领域驾驶员会受到周围车辆的影响的现实情况通过对驾驶员隐状态中编码先验知识来优化强化学习并结合周围车辆构建知识图谱进一步采用基于图神经网络的图表示学习方法来更新驾驶员的隐状态在自动导航任务中加速强化学习的过程。
对应强化学习过程中的几个概念本研究分别定义
状态这里特别的是定义了一个联合状态包括进入或离开环境的每个车辆自身的位置和速度及每个车辆邻域车辆信息的表示。
观测值每个车辆自身状态叠加一个高斯噪声组成观测值。
动作控制车辆自身速度的选择空间。
转移车辆自身是通过一个PD控制器跟踪期望的速度来实现轨迹控制。
奖励奖励函数由任务完成是否完成的打分和速度组成目标是在尽量快的速度下完成车辆右转。 这里特别的是论文中将建模时间序列模型的LSTM和图表示学习中的GraphSAGE结合实现对于动态车辆及周围邻域车辆状态的表示学习顶层LSTM网络的输出就是动作分布这个时空GNN网络结构在整个模型的策略网络和隐式推理中都会用到。 3 时序推理
Search from History and Reason for Future: Two-stage Reasoning on Temporal KnowledgeGraphs. ACL 2021.
Zixuan Li, Xiaolong Jin, Saiping Guan, Wei Li, Jiafeng Guo, Yuanzhuo Wang, Xueqi Cheng
核心贡献这篇论文研究了动态知识图谱的时序推理。通过设计了包含线索搜索和时序推理的两阶段模式预测未来将发生的事件。在线索搜索阶段通过强化学习来训练一个集束搜索策略以从历史事件中推断多条线索。在时序推理阶段使用基于GCN的时序模型从线索中推理答案。 这里我们重点讨论基于强化学习的线索搜索部分对应强化学习过程中的几个概念本研究分别定义
环境整个知识图谱就是强化学习任务中的环境。
状态智能体的状态是一个五元组其中包含给定需要查询的头实体、关系、时间点和智能体当前到达的实体和时间点。
时间约束的动作与静态知识图谱不同动态知识图谱中的时间维度会极大的增加动作空间的规模并且人类记忆集中在最近的一段时间内。因此这里动作定义为在智能体当前到达的实体一段时间区间内的能够到达的实体关系时间点组成的三元组。
转移智能体通过动作选择从当前状态更新到新的实体。
奖励奖励由评价是否达到正确的尾实体的二值奖励和在阶段二中得到的实值奖励组成。
策略网络包括 编码线索路径的LSTM网络。 计算动作分布的多层感知器。
论文中介绍的随机集束搜索策略和时序推理部分可以详见论文。 4 对话式问答系统
Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs. SIGIR 2021
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum
核心贡献类似于多轮对话系统这篇论文研究了对话式问答。利用强化学习从提问和复述的对话流中学习有效信息以从知识图谱中找到正确的答案。论文中设计的模型通过将回答的过程建模为在知识图谱中多个智能体并行游走如何游走通过策略网络选择的动作决定策略网络的输入包括对话上下文和知识图谱中的路径。
对应强化学习过程中的几个概念本研究分别定义
状态第t轮的问句表示之前对话的一个子集作为上下文问句上下文实体中的其中一个作为智能体出发的起始点。
动作从当前实体出发的所有路径每条路径到达的end point实体都是候选答案。
转移转移函数将状态更新为智能体到达的end point实体。
奖励奖励函数为二值奖励如果用户下一次说的是一个新的问题说明模型给出的回答解决了用户的问题给正向奖励如果用户下一次说的是相近意图的复述内容说明没有回答用户的问题给负向奖励。
这篇论文中采用策略梯度训练强化学习模型由于这个模型中涉及多智能体动作选择是从每个智能体选择top-k个动作。多个智能体都可能得到候选答案按照被智能体选择为候选答案的次数对实体进行排序排名最高的实体为预测的答案。 5 推荐系统
Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning. Arxiv 2021.
Sijin Zhou, Xinyi Dai, Haokun Chen, Weinan Zhang, Kan Ren, Ruiming Tang, Xiuqiang He, Yong Yu
核心贡献这篇论文研究了能够和用户交互的推荐系统。为了处理用户的兴趣变化和逐渐积累的项目将交互式推荐看成一个决策制定和长期规划的马尔科夫决策问题就可以将强化学习引入交互式推荐系统。然而强化学习的训练效率较低为了解决这一问题利用知识图谱中项目相关的先验知识来指导候选推荐项的选择。 对应强化学习过程中的几个概念本研究分别定义
状态当前项目及其多跳邻域组成的子图。
动作接下来选择推荐的项目。
转移转移函数将状态更新为智能体到达的end point实体。
奖励对于系统传递给用户的推荐项目根据用户的反馈是“点击”“购买”还是“跳过”来给定奖励。
由于在强化学习中状态的表示是非常关键的这篇论文中提出一个知识图谱增强的状态表示机制。其中将已经点击的项目转换为embedding表示并利用GCN对项目在知识图谱中的邻域信息进行聚合更新项目的embedding得到邻域表示。
进一步为了编码对用户的观测信息采用GRU聚合用户的历史行为并蒸馏用户的状态表示其中得到的当前用户状态的表示可以输入Q网络中。
此外论文中提出了的一个基于邻域的候选选择机制从已点击项目在知识图谱中多跳邻域中选择候选推荐项目可以利用知识图谱提供的语义相关性有效缩小动作空间的大小便于提高模型的计算效率。
这篇论文采用DQN来学习最优策略训练整个强化学习模型。
从以上几个不同领域的研究内容可以发现只要是需要和环境交互的动态系统都有可能通过强化学习的方法来进行建模知识图谱不仅可以是强化学习的对象例如知识图谱推理也可能为强化学习的状态和动作选择提供语义信息得到更好的表示来优化强化学习的过程。 以上就是本期所有对于知识图谱强化学习的学习分享了。所有内容都是泽宇经过调研和学习理解总结的之后还会陆续分享知识图谱各类方向的技术介绍如果大家有对某个方向感兴趣的可以联系泽宇敬请关注啊。 往期精选
“知识图谱”系列知识图谱图神经网络
年末巨制知识图谱嵌入方法研究总结
介绍一些知识图谱的实际应用类项目
知识图谱最新权威综述论文解读知识表示学习部分
手把手教你搭建一个中式菜谱知识图谱可视化系统 如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“也可以扫描下方二维码关注同名微信公众号“人工智能遇上知识图谱”让我们一起学习并交流讨论人工智能与知识图谱技术。