当前位置: 首页 > news >正文

济宁网站建设只要500元wordpress links

济宁网站建设只要500元,wordpress links,网站商城如何获取流量,电商运营培训课程有哪些PaddlePaddle原创2019/02/20 17:23强化学习之原理与应用强化学习特别是深度强化学习近年来取得了令人瞩目的成就#xff0c;除了应用于模拟器和游戏领域#xff0c;在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识…PaddlePaddle原创2019/02/20 17:23强化学习之原理与应用强化学习特别是深度强化学习近年来取得了令人瞩目的成就除了应用于模拟器和游戏领域在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识强化学习在百度的应用以及百度近期发布的基于PaddlePaddle深度学习框架的强化学习工具PARL。强化学习算法 强化学习RL和其他学习方法的异同首先从宏观层面看可以通过“三轴”图来看强化学习与其他学习方法的联系和区别第一条轴deterministic -stochastic可以描述转移概率决策过程和奖励值分布的随机性第二条轴fixed dataset -interactive data表示学习数据的来源方式第三轴instant reward -delayed reward表示奖励值是立即返回还是有延迟的。我们熟知的有监督学习针对的是静态的学习数据以及近似可以看作无延迟的奖励动态规划针对的则是确定性的环境以及静态的数据主动学习针对无延迟的奖励以及交互型的数据多臂老虎机multi-armed bandits则同时处理带有奖励随机性和交互型的数据但依旧是无延迟的奖励问题只有强化学习处理三个方向随机有延时交互的问题。因此强化学习能够解决很多有监督学习方法无法解决的问题。强化学习RL的基本定义强化学习的主要思想是基于机器人agent和环境environment的交互学习其中agent通过action影响environmentenvironment返回reward和state整个交互过程是一个马尔可夫决策过程。举个例子如雅利达游戏state指看到当前电游屏幕上的图像信息agent或者人类专家面对state可以有相应的action比如对应游戏手柄的操作environment在下一帧会反馈新的state和reward整个过程可以用马尔可夫决策过程来描述。在这个过程中的environment则主要包括两个机制一个是transition代表环境转移的概率另外一个是reward。Markov Decision Process和Policy的定义可以通过更具体的类比来理解有监督和强化学习的REINFORCE算法的关联。假设在t时刻action以来表示. 在有监督的学习过程中需要人来示范动作, 通常我们希望机器去学习人的示范动作在这里就代表示范的label。我们一般可以通过最小Negative Log-Likelihood (NLL(见底部的补充1说明)来使得我们的policy函数逼近人的示范。从Supervised Learning到REINFORCE在交互学习的过程中没有人的示范而是让机器自主去做一个动作。我们先考虑reward没有延迟的情况机器人用一定的初始策略选到这个动作。它不知道自己做的对不对 但是可以他拿到一个立即的reward。如果我们尝试最小化这样一个目标函数。 同时假设这个动作做对了奖励是1做错了奖励是0 我们可以发现这个式子跟是一致的也就是退化为监督学习, 但却并不需要示范label, 只需要reward。进一步的在马尔可夫决策过程迭代中我们希望优化整个序列的总收益delayed reward而不是单步的立即收益。进一步修改目标为即整个序列如果更好地完成最终总体指标R就强化整个动作序列的概率反之弱化整个动作序列的概率。这便是强化学习最简单的策略梯度方法。除此之外DQN、temporal difference等方法则是基于一个值critic评价体系进行迭代而非直接求解policy。这类方法存在显著问题是无法针对连续动作空间。本文不再展开介绍。REINFORCE 和 CreditAssignmentREINFORCE这类直接求解policy function的方法效率通常比DQN低很多。以下围棋举例比如前99步都下得很好最后1步下的不好导致满盘皆输。如果用REINFORCE方法会认为这100步包括下的不错的前99步都不好。虽然从统计意义上来说如果下的次数足够多梯度更新最终仍然是往正确的方向但显然这是一种学习效率很低的算法。为了改善这个问题另一类应用更广的方法是actor-critic其中actor是policycritic是评价函数这类方法是将策略函数和值函数一同学习核心思想是希望评价函数做能够给action返回一个合适针对它自己对于整个棋局影响的“综合”反馈通常被称为credit Assignment。REINFORCE可以认为用整个序列的总体reward作为credit而actor-critic赋予每一个动作一个独立的反馈也叫做advantage。下面列出的是一些不同的advantage的计算方式[1]。其中1是传统的REINFORCE而后面的一些计算方式则通过值函数的迭代提升advantage计算准确性从而提高策略梯度的效率。从REINFORCE到Advantage Function的计算强化学习涉及的算法非常多种类也非常广包括model-free算法这类算法最为大家所熟知而它又可以分为critic onlyactor only和actor-criticmodel based算法通过对环境建模来进行规划这类算法在训练过程中具有很高效率但因为inference的时候需要做planning效率则较低这类方法最近获得越来越多的关注还有一些和不同算法结合在一起的组合RL方法如Auxiliary Tasks, Hiearchical RL,DeepExploration逆强化学习等。强化学习的算法罗列 强化学习应用-推荐系统 2011年之前强化学习主要用于Intelligent Robotics等控制问题。2012-2013年强化学习伴随深度学习的高涨逐渐火热起来。2012年百度已开始将multi-armed bandits用于搜索排序。2014-2017年百度将强化学习用于对话系统广告定价新闻推荐等场景在学术上也发布了首个AGI评测环境XWorld。2018-19年百度在强化学习工具研究应用方面开始全面铺开。对于推荐类问题来说工业界的推荐系统早期比较成熟的方法包括协同过滤CTR预估等。而现有推荐系统有两个尚未解决得很好的问题也是业界研究热点1intra-list correlations考虑列表里的内容关联。现有推荐系统通常针对用户推荐一个列表而不是一个一个内容推荐因此内容之间的组合关联就会有影响。传统的多样性推荐等技术其实都在解决这个问题。2inter-list correlations考虑的是列表页间的时序关联即内容本身对用户的价值随着时间和交互次数的增加而动态变化。百度基于新闻资讯推荐场景对这两个层级的问题都开展了相应研究工作并且均涉及强化学习技术在intra-list correlation角度以往经典做法认为列表内的item之间是相互独立的以此来预估CTR又被称为item-independent prediction。多样性是在此基础上的一个改进即以整个组合来考虑推荐内容而不单纯只考虑item自身。学术界对多样性理论的研究包括DPPSubmodular Ranking等方法[2][3]。Submodular实际上就是对“边际效用递减”这个说法的形式化通俗的说把所有商品看成一个集合随着所拥有的商品数量的增加那么获得同类商品的满足程度越来越小。在推荐系统中在上文推荐的基础上进行重新估计例如下面的图中第i次新闻推荐内容项为第i1次推荐的内容需要考虑去掉已推荐过的相似内容考虑用户感兴趣的topic空间给用户推荐的应该是月牙形区域的内容这便是submodular中的net gain的定义。DPP的做法也类似。然而目前对于多样性的研究缺乏统一的目标定义多样性也不对最终用户反馈直接负责导致多样性效果很难客观衡量往往只能主观调节。Submodular排序Net-Gain的计算 基于此背景百度提出了列表页内组合优化框架整合了学术界对列表页框架的认识。这个框架包括多个方面贡献1. 提出了完全以用户反馈utility来衡量列表页内组合是否合理的方法。2. 提出了评价-生成的框架来解决组合优化的局部和全局最优的问题以及off-policy训练的问题。3. 提出了不少新的模型结构包括Recursive网络Transformer网络等用于更加通用地建模列表页内的组合不仅包括两两关联组合包括更高阶的组合正向反向的组合等。百度相关产品在2017年底就上线了序列优化框架相对于以往很多方法已经取得了不少收益相关的成果已发表论文[4]。建模列表页内内容的一些模型和方法Evaluator – Generator列表组合排序框架而在inter-list correlation角度对于新闻推荐这类产品的列表间优化强化学习面临一个难题是variance过大可能导致准确率下降。过去Google京东发表的一些论文针对这个问题较为机械地用传统强化学习方法来解决。但是这些方法往往因为定义过大的action空间以及过长的MDP导致准确性下降。而且这些成果大部分都是在理想的实验环境而非真正的线上环境使用。百度多年前针对机械使用强化学习技术的尝试也发现对于线上极大规模的排序或者推荐的列表页间的交互优化并没有实际优势。目前百度正在采用Credit Assignment这类新的算法以更好地解决这些问题不久之后会发布这些成果。 强化学习 应用-对话系统 对话系统可以分为任务型对话系统Task Oriented Dialogue System和开放对话系统Open Domain Dialogue System经典的任务对话系统结构如下。在对话管理中强化学习可以起到非常重要的作用。任务型对话系统流程百度早在2012年就开始任务型对话系统的探索其中一个早期的强化学习实验是2012-2013年做的点餐系统。这是一个百度内部员工使用的外卖订餐Demo。这个Demo基于一些NLU的特征以及一些对话NLG的模板利用LSTD模型来迭代对话管理逻辑。这个Demo设计的反馈也很粗糙就是内部员工自己来标注。这个项目拿到一些结论但整体不是很理想。百度早期探索的对话式点餐系统 之后百度在各种垂类对话系统上进行了进一步的的实验。其中比如聊天气的垂类对话。它的特征相对点餐系统多一些投入的人工评估和标注的资源也更多。最终效果上有些指标能够超越人精心设计的规则策略。百度早期探索的聊天气对话系统这之后随着深度学习的兴盛学术界也产生了一些成果。如2016年WenTsung-Hsien提出端到端面向任务对话系统[5]使用神经网络把四个模块综合起来所有模块中的状态都可训练相对以前工作有较大进步。利用深度强化学习结合端到端的对话模型在足够的数据下任务型对话系统可以达到比较理想的效果。与任务型对话系统不同开放式对话系统的潜力更大难度也更高。百度早期做过一些尝试比如聊天系统中的对话引导功能引导用户提出下一句可能的问题。这功能的传统做法是通过语义匹配semantic matching网络来学习选择用户点击概率高的引导项而通过强化学习来提升语义匹配网络的效果使得语义匹配可以不单单考虑当前的点击概率而是可以考虑后续的可能引导给出最佳的选择。通用引导对话逻辑在开放式对话方向的研究基本可以分为基于检索、自动生成两种方式。检索方式受限于有限的语料库对于最终解决开放式对话问题而言生成方式更具有潜力。而业界对于开放域的对话的生成尚没有标准的解决方案。从2015年开始端到端神经网络开始逐渐展现潜力。而当前端到端的对话系统存在的问题通常包括 1生成式回答中没有内容如经常回复“哈哈”“呵呵”2缺乏逻辑性如“我有一个女儿我12岁”3答非所问如问“你从哪里来”回答“我喜欢踢足球”4对话缺乏明确的目标和评价方式导致效果评估效率低甚至无法实现。强化学习作为解决上述部分问题的潜在方法备受瞩目。但强化学习对话系统也存在显著问题1强化学习需要明确的学习目标或者用户明确反馈而评价目标很难制定用户反馈则很难获取2强化学习通常需要大量的数据甚至比有监督学习需要更多的数据。这些是阻碍强化学习应用的关键因素。百度目前在开展一个比较有野心的工作就是建立一套完整的对话评估体系。基于一套完整的评估体系有可能在包括人-机对话机-机对话self-play机-模拟器对话系统中引入强化学习提升对话质量。对于这套评估系统有几个层面的要求1Word-level adversarial safe使得这套评估系统能够被任何强化学习生成方法作为稳定的学习目标2和人的评估接近可以被不同任务特化。 百度正在优化的自动评估的对话进化系统 在这套框架下百度开展了一些尝试性工作。图中是Facebook发布的数据集persona[6]基于两个persona个性数据产生两个人之间的对话。通过两个机器人相互聊聊完之后用evaluation-system来进行评估获得reward从而强化这两个机器人的对话。相关进展未来将发布。 在自动评估-进化框架下Self-Play训练的效果 强化学习应用-移行控制  NeurIPS 2018 AI for Prosthetics Challenge介绍百度在NeurIPS 2018 AI for Prosthetics Challenge中以绝对优势夺冠 百度强化学习团队近期在NeurIPS 2018 AI forProsthetics竞赛中也以绝对优势夺冠。在这个比赛中需要控制一个人体骨骼肌肉模型的肌肉19维学习的目标是按照外部不断变换的给定的速度行走。对没有按照速度行走或者跌落扣分。这次比赛中百度用到四个关键技术包括1模型结构和学习方法上使用deep deterministic policy gradient[7]该网络结构由4层MLP组成将速度目标状态动作结合在一起建模使得速度之间具有很好的可转移性。百度在NeurIPS 2018AI for Prosthetics Challenge中使用的模型 2CurriculumLearning[8]为了获得稳定的奔跑姿态首先训练一个高效的高速奔跑姿势再利用课程学习CurriculumLearning设计一系列从易到难的课程让机器人逐渐地降低速度。通过这种方式得到一种特别稳定的姿态用于热启动。 百度在NeurIPS 2018AI for Prosthetics Challenge中调研的Curriculum Learning启动方法 3DeepExploration[9]这项技术利用多个header的预测得到其预测的波动这个波动代表了当前策略和值的波动范围。这个能够帮助策略有效探索到探索不足的空间。4Parallelization最后基于PaddlePaddle的高效的计算框架采用多个CPU的模拟器以及一个data server、一个高性能GPU作为单机多卡的训练将训练性能提高几百上千倍。百度在NeurIPS 2018AI for Prosthetics Challenge中使用的Distributed DDPG训练框架 基于上述的方法百度团队不断刷新指标最终以9980的绝对高分拿下比赛冠军。另外一个进展则和自动驾驶相关。端到端的控制在机器人领域一直都具有比较高的吸引力。但控制问题是典型的delayedreward的问题有监督学习在这个领域作用相对较少。近年来不断有用imitation learningRL等提升端到端模型的研究。但同时端到端模型又非常难以训练。百度首次在一个飞行器上实现了一种新的强化学习训练框架并在避障导航问题中应用。百度提出“干预强化学习IARL”和普通强化学习的比较强化学习用在autonomous driving中的问题有1需要大量的数据2强化学习需要探索一些冒进的动作并且经历一些风险和失败比如碰撞。然而在真实世界这个成本过大不可能让无人车或者无人机撞毁无数次来学会如何躲避障碍。百度提出的一种解决方案是利用安全员当发现紧急情况时安全员会做一些紧急动作。policy如下图所示是一个比较复杂的端到端网络结构融合CNN与LSTM多帧信息。但是通常不能把无人车或者飞行器真的完全交给这个模型而是通过引入安全员来保障安全。飞行器上使用的端到端控制模型 当系统做出错误判断或者出现高危动作时安全员会及时介入。安全员的每次干预说明机器的动作不对这是非常珍贵的反馈信息可以被机器学习。这就是干预辅助强化学习Intervention Aided Reinforcement Learning的思想。百度设计的IARL算法包括两个方面1. 惩罚任何干预 2. 学习安全员干预时所采用的操作。干预强化学习的流程 IARL在policy和loss function中的体现如下一方面需要修改behavior policy因为现在的policy不再是机器完全自主而是变成了机器和干预的混合策略第二方面在reward上需要对干预的过程做出惩罚第三方面对于policy的目标函数进行修改增加一项用于学习干预过程的imitation learningloss。干预强化学习算法 该算法最终很好地实现了避障。而这个成果也发表在CoRL 2018会议上[10]演示视频地址如下: http://www.iqiyi.com/w_19s79d6rr1.html干预强化学习的效果  工具-PARL 现在业界已有不少开源强化学习工具百度也于近期发布了PARL框架。https://github.com/PaddlePaddle/PARLPARL是基于PaddlePaddle的一个强化学习框架特点是1灵活性高支持多数的强化学习算法2为数不多的开源其大规模分布式能力的强化学习算法库3通过之前介绍的工业级场景验证了算法库的可用性。这套强化学习框架基于3个基础类分别是agent、algorithm、model。通过不同层级的定制PARL能够实现方便灵活可服用定制方便的强化学习算法并具有对于大规模并行能力良好支持。用户可以很方便写出自己独特的定制算法而不必去管具体通信接口等逻辑。以DQN为例PARL提供了algorithm的现成DQN算法用户只需要定制自己的模型即可。基于PARL的利用现成的DQN Algorithm来开发Model 而如果用户需要定制全新的RL算法也可以通过定制algorithm简单地实现。PARL的DDPG Algorithm实例 最后如果需要定义自己的全新的并行RL训练框架用户能够通过定义一些通信逻辑实现一些并行化的复杂操作。PARL开发并行训练方法实例这套强化学习库目前在业界已经引起了不少反响。主打灵活易用和高并发的PARL能够取得什么样的成果请拭目以待。强化学习的存在问题及应对方法 强化学习 – 问题和潜在的研究方向强化学习绝不是AI的终点它实实在在解决了一类问题然而仍然有更多待解决的问题。深度强化学习还远远不够好Deep Reinforcement Learning Doesnt Work Yet https://www.alexirpan.com/2018/02/14/rl-hard.html。总结而言强化学习存在的这些问题也是未来值得去突破的方向包括1在很多应用中往往目标不明确。例如对话最终目的一般来说是希望对话系统“表现得像人”然而这个目标无法清楚地进行数学描述。因此reward modeling是很重要的研究方向。比如百度在推荐排序的时候使用evaluation-generator的框架即首先对reward的建模。2强化学习需要海量的样本甚至比有监督学习还需要更多的样本。解决方法比如使用world model或planning。3奖励函数过于稀疏难以探索到优质解。研究方向比如分层训练、课程学习和引入辅助任务。4泛化能力比较差很多结果处在过拟合的区域。可以使用元学习迁移学习以及近期研究较多的攻防理论来改善。5实验难以复现。很多实验甚至随机种子不一样都会得到完全不一致的效果。这也是百度将自己的工具开源的原因之一也是要解决这个问题的第一步。而这些方向既是强化学习研究的前沿也是很多工业应用面临的实际问题。百度也正在着力研究期待有更多突破性的产出。 参考文献[1] Schulman, John, etal. High-dimensional continuous control using generalized advantageestimation. arXiv preprintarXiv:1506.02438 (2015).[2] Yue, Yisong, andCarlos Guestrin. Linear submodular bandits and their application todiversified retrieval. Advances in Neural Information Processing Systems.2011.[3] Wilhelm, Mark, etal. Practical Diversified Recommendations on YouTube with DeterminantalPoint Processes. Proceedings of the 27th ACM International Conference on Informationand Knowledge Management. ACM, 2018.[4] WangF , Fang X , Liu L , et al. Sequential Evaluation and Generation Framework for CombinatorialRecommender System[J]. 2019.[5] Wen, Tsung-Hsien,et al. A network-based end-to-end trainable task-oriented dialoguesystem. arXiv preprintarXiv:1604.04562 (2016).[6] Zhang, Saizheng,et al. Personalizing Dialogue Agents: I have a dog, do you have petstoo?. arXiv preprint arXiv:1801.07243(2018). “Self-EvolvingDialogue System with Adversarial Safe Automatic Evaluation”[7] Lillicrap, TimothyP., et al. Continuous control with deep reinforcement learning.arXiv preprintarXiv:1509.02971(2015).[8] Bengio, Yoshua, etal. Curriculum learning. Proceedings of the 26th annualinternational conference on machine learning. ACM, 2009.[9] Ian Osband,Charles Blundell, Alexander Pritzel, Benjamin Van Roy, Deep Exploration viaBootstrapped DQN, In NIPS 2016.[10] Wang, F., Zhou,B., Chen, K., Fan, T., Zhang, X., Li, J., ... Pan, J. (2018, October).Intervention Aided Reinforcement Learning for Safe and Practical PolicyOptimization in Navigation. In Conference on Robot Learning.PaddlePaddlePaddlePaddle是百度独立研发的深度学习平台易用高效灵活可伸缩可支持海量图像识别分类、机器翻译和自动驾驶等多个领域业务需求现已全面开源。理论强化学习52相关数据深度学习技术深度学习deep learning是机器学习的分支是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法至今已有数种深度学习框架如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。 来源LeCun, Y., Bengio, Y., Hinton, G. (2015). Deep learning. nature, 521(7553), 436.自动驾驶技术从 20 世纪 80 年代首次成功演示以来Dickmanns Mysliwetz (1992); Dickmanns Graefe (1988); Thorpe et al. (1988)自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个首先在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境从而进行实时推论。第二信息性决策需要准确的感知目前大部分已有的计算机视觉系统有一定的错误率这是自动驾驶导航所无法接受的。来源机器之心动态规划技术动态规划也称为动态优化是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题只解决一次子问题并存储它的解决方案solution下一次遇到同样的子问题时无需重新计算它的解决方案而是简单地查找先前计算的解决方案从而节省计算时间。动态规划适用于有最优子结构Optimal Substructure和重叠子问题Overlapping Subproblems性质的问题。来源Wikipedia深度强化学习技术强化学习Reinforcement Learning是主体agent通过与周围环境的交互来进行学习。强化学习主体RL agent每采取一次动作action就会得到一个相应的数值奖励numerical reward这个奖励表示此次动作的好坏。通过与环境的交互综合考虑过去的经验exploitation和未知的探索exploration强化学习主体通过试错的方式trial and error学会如何采取下一步的动作而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励accumulated reward。 一般来说真实世界中的强化学习问题包括巨大的状态空间state spaces和动作空间action spaces传统的强化学习方法会受限于维数灾难curse of dimensionality。借助于深度学习中的神经网络强化学习主体可以直接从原始输入数据如游戏图像中提取和学习特征知识然后根据提取出的特征信息再利用传统的强化学习算法如TD LearningSARSAQ-Learnin学习控制策略如游戏策略而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。来源Scholarpedia机器学习技术机器学习是人工智能的一个分支是一门多领域交叉学科涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论机器学习与推断统计学联系尤为密切也被称为统计学习理论。算法设计方面机器学习理论关注可以实现的行之有效的学习算法。来源Mitchell, T. (1997). Machine Learning. McGraw Hill.协同过滤技术协同过滤英语Collaborative Filtering简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息个人通过合作的机制给予信息相当程度的回应如评分并记录下来以达到过滤的目的进而帮助别人筛选信息回应不一定局限于特别感兴趣的特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比rating或者群体过滤social filtering。其后成为电子商务当中很重要的一环即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据也许不是百分之百完全准确但由于加入了强弱的评比让这个概念的应用更为广泛除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。来源维基百科规划技术人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度其目的是进行资源的优化。常见的规划方法包括经典规划Classical Planning、分层任务网络HTN和 logistics 规划。来源机器之心元学习技术元学习是机器学习的一个子领域是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是我们如果想使智能体掌握多种技能、适应多种环境则不应该从头开始在每一个环境中训练每一项技能而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法又叫元学习meta-learning是通往可持续学习多项新任务的多面智能体的必经之路。来源机器之心推荐系统技术推荐系统RS主要是指应用协同智能collaborative intelligence做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤Collaborative Filtering。另外还有基于知识的推荐系统包括基于本体和基于案例的推荐系统是一类特殊的推荐系统这类系统更加注重知识表征和推理。来源机器之心神经网络技术人工神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型那时候研究者构想了「感知器perceptron」的想法。这一领域的研究者通常被称为「联结主义者Connectionist」因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型它们都是前馈神经网络卷积神经网络CNN和循环神经网络RNN其中 RNN 又包含长短期记忆LSTM、门控循环单元GRU等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习但也有一些为无监督学习设计的变体比如自动编码器和生成对抗网络GAN。来源机器之心准确率技术分类模型的正确预测所占的比例。在多类别分类中准确率的定义为正确的预测数/样本总数。 在二元分类中准确率的定义为(真正例数真负例数)/样本总数 来源Google ML Glossary监督学习技术监督式学习Supervised learning是机器学习中的一个方法可以由标记好的训练集中学到或建立一个模式函数 / learning model并依此模式推测新的实例。训练集是由一系列的训练范例组成每个训练范例则由输入对象通常是向量和预期输出所组成。函数的输出可以是一个连续的值称为回归分析或是预测一个分类标签称作分类。来源Wikipedia语料库技术语料库一词在语言学上意指大量的文本通常经过整理具有既定格式与标记事实上语料库英文 text corpus 的涵意即为body of text。来源维基百科逻辑技术人工智能领域用逻辑来理解智能推理问题它可以提供用于分析编程语言的技术也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑Propositional Logic 以及一阶逻辑FOL等谓词逻辑。来源机器之心目标函数技术目标函数f(x)就是用设计变量来表示的所追求的目标形式所以目标函数就是设计变量的函数是一个标量。从工程意义讲目标函数是系统的性能标准比如一个结构的最轻重量、最低造价、最合理形式一件产品的最短生产时间、最小能量消耗一个实验的最佳配方等等建立目标函数的过程就是寻找设计变量与目标的关系的过程目标函数和设计变量的关系可用曲线、曲面或超曲面表示。来源百度百科迁移学习技术迁移学习是一种机器学习方法就是把为任务 A 开发的模型作为初始点重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务虽然大多数机器学习算法都是为了解决单个任务而设计的但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见例如我们可能会发现学习识别苹果可能有助于识别梨或者学习弹奏电子琴可能有助于学习钢琴。来源机器之心Pan, S. J., Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.过拟合技术过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。来源Wikipedia无人机技术无人机Uncrewed vehicle、Unmanned vehicle、Drone或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。来源维基百科马尔可夫决策过程技术马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型为动态规划与强化学习的最优化问题提供了有效的数学工具广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时我们一般特指其在离散时间中的随机控制过程即对于每个时间节点当该过程处于某状态(s)时决策者可采取在该状态下被允许的任意决策(a)此后下一步系统状态将随机产生同时回馈给决策者相应的期望值该状态转移具有马尔可夫性质。来源Reinforcement Learning: An Introduction, by R. Sutton and A. G. Barto Algorithms for Reinforcement Learning, by C. Szepesvari对话系统技术对话系统大致被分成两类 任务为导向的对话系统帮助用户去完成特定任务比如找商品订住宿订餐厅等。实现任务为导向的对话系统主要有两类方式流水线方法和端到端方法。非任务导向的对话系统与用户进行互动并提供回答简单的说就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类生成方法和基于检索的方法。来源CSDN主动学习技术主动学习是半监督机器学习的一个特例其中学习算法能够交互式地查询用户或其他信息源以在新的数据点处获得期望的输出。 在统计学文献中有时也称为最佳实验设计。来源Wikipedia强化学习技术强化学习是一种试错方法其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划Dynamic Programming。流行的强化学习方法包括自适应动态规划ADP、时间差分TD学习、状态-动作-回报-状态-动作SARSA算法、Q 学习、深度强化学习DQN其应用包括下棋类游戏、机器人控制和工作调度等。来源机器之心百度机构百度纳斯达克BIDU全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力抱着技术改变世界的梦想他毅然辞掉硅谷的高薪工作携搜索引擎专利技术于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术使百度成为中国掌握世界尖端科学核心技术的中国高科技企业也使中国成为美国、俄罗斯、和韩国之外全球仅有的4个拥有搜索引擎核心技术的国家之一。相关技术深度学习自然语言处理机器学习京东机构京东股票代码JD中国自营式电商企业创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作1号店并入京东。展开全部数据补充 1
http://www.zqtcl.cn/news/861220/

相关文章:

  • 如何做网站关键词wordpress安装卡死
  • word模板免费下载网站山东定制网站建设公司
  • 郑州网站推广排名公司win7上怎样卸载wordpress
  • 科技网站有哪些wordpress代码编辑器件
  • 做英文企业网站多钱钱wordpress调用外链图片
  • 自学网站查分数西双版纳傣族自治州天气
  • 网站建设一个多少钱wordpress朗读句子插件
  • 网站关键词怎么填写找代理商的渠道有哪些
  • 网站开发销售简历范文新建网站网络空间
  • 舟山外贸建站公司制作公司简介
  • 菜鸟是什么网站威海网站建设费用
  • 网站开发花费如何制作个人网页兼职
  • 网站鼠标特效用户体验最好的网站
  • 网站设计步骤图南通网站建设公司
  • 做盗版系统网站会不会开发次元世界
  • 下载爱南宁官方网站手机app开发软件有哪些
  • 云浮网站设计不收费的企业查询网站
  • 网站栏目怎么做iis网站筛选器被挂马
  • 网站开发中遇到的主要问题品牌营销策略包括哪些内容
  • 网站制作易捷网络十大社区团购平台有哪些
  • 哈尔滨口碑好的建站公司做网站制作一般多少钱
  • 河南网站网站制作华为品牌vi设计
  • 网站设置默认主页甘肃省第八建设集团公司网站
  • 自己做网站美工关键词优化排名网站
  • 淄博手机网站建设报价商业网站地方频道
  • 小说网站开发业务逻辑php 网站
  • 专业的做网站动态个人网站模板
  • 设计师网站设计网站开发试题库
  • 做网站是用c 吗东莞网络推广优化
  • 外贸soho网站建设wordpress配置搜索引擎优化