您的位置首页  广州网事

专题 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文

  本论文将概述最近在深度强化学习(DeepReinforcementLearning)方面喜人的进展。本文将从深度学习及强化学习的背景知识开始,包括了对实验平台的介绍。接着我们会介绍深度Q网络(DeepQ-Network,DQN)及其拓展、异步方法(asynchronousmethods)、策略优化(policyoptimization)、奖励(reward)及规划(planning)。在这之后,我会讨论注意和记忆(attentionandmemory)机制、非监督学习及学习去学习。随后,会讨论强化学习的各种应用,包括在游戏(特别是AlphaGo)、机器人、口语对话系统(聊天机器人)、机器翻译、文本序列预测、神经架构设计、个性化网络服务、医疗、金融及音乐生成等方面的应用。我们会提到一些未覆盖到的主题/论文。在列举强化学习相关资源之后,我们将会以讨论结束论文。

  强化学习(RL)实际上是关于序列决策的一种工具,它能够解决包括科学研究、工程文理等学科的一系列问题(SuttonandBarto,2017)。

  增强学习及神经网络的结合可以追溯到1990年代(Tesauro,1994;BertsekasandTsitsiklis,1996;Schmidhuber,2015)。而在最近深度学习的突破性进展之下(LeCunetal.,2015;Goodfellowetal.,2016),得益于大数据的普及、计算能力的提升及新的算法技术,我们正见证着强化学习的复兴(Krakovsky,2016),特别是强化学习及深度学习的结合(也就是深度强化学习(deepRL))。

  我们已见证了诸多突破性进展——深度Q网络(Mnihetal.,2015)、AlphaGo(Silveretal.,2016)及可微分神经计算机(Gravesetal.,2016)。还有一些全新的架构及应用,包括异步方法(Mnihetal.,2016)、对抗网络架构(DuelingNetworkArchitectures,Wangetal.,2016a)、价值迭代网络(valueiterationnetworks,Tamaretal.,2016)、用于机器翻译的双学习(duallearningformachinetranslation,Heetal.,2016a)、口语对话系统(spokendialoguesystems,Suetal.,2016b)、信息提取(informationextraction,Narasimhanetal.,2016)、引导性策略搜索(guidedpolicysearch,Levineetal.,2016a)、生成对抗模仿学习(generativeadversarialimitationlearning,HoandErmon,2016)、非监督的强化及辅助学习(unsupervisedreinforcementandauxiliarylearning,Jaderbergetal.,2017)及神经架构设计(neuralarchitecturedesign,ZophandLe,2017)等等。在这篇概述中,我们主要关注近几年的工作成果,当然也只能覆盖不完全的、一小部分成果。

  我们将给读者一系列的参考资料以帮助其进一步学习:

  深度学习(LeCunetal.,2015;Goodfellowetal.,2016;Bengio,2009;DengandDong,2014)

  机器学习(JordanandMitchell,2015;Hastieetal.,2009;Bishop,2011;Murphy,2012;Jamesetal.,2013)

  实用机器学习建议(Domingos,2012;Zinkevich,2017)

  人工智能(RussellandNorvig,2009)

  神经网络中的深度学习(Schmidhuber,2015)

  自然语言处理(HirschbergandManning,2015;DengandLiu,2017)

  机器人学(Koberetal.,2013)

  迁移学习(TaylorandStone、2009;PanandYang,2010;Weissetal.,2016)

  半监督学习(ZhuandGoldberg,2009)

  贝叶斯强化学习(Ghavamzadehetal.,2015)

  口语对话系统(Hintonetal.,2012;HeandDeng,2013;Youngetal.,2013)

  人工智能安全(Amodeietal.,2016;GarciaandFernandez,2015)

  蒙特卡洛搜索(MCTS)(Browneetal.,2012;Gellyetal.,2012)

  多代理强化学习(Shohametal.,2003;Busoniuetal.,2008)

  博弈论(Leyton-BrownandShoham,2008)等等。

  我们将会在23节中列举强化学习资源。在goo.gl/KoXIQC及goo.gl/1Q1lzg参见强化学习的应用。

  该概述的大纲如下:第二节,深度学习及强化学习的背景知识及对测试平台的介绍;第三节,对深度Q网络及其拓展的介绍;第四节,异步放法的介绍;第五节,策略优化;第六节,奖励;第七节,规划;第八节,注意和记忆机制,特别是对可微分神经计算机(DNC)的介绍;第九节,非监督学习;第十节;学习去学习(learningtolearn);第十一节,游戏/博弈,包括棋类游戏、视频游戏及非完美信息博弈;第十二节,AlphaGo;第十三届,机器人学;第十四节,对话系统(聊天机器人);第十五节,机器翻译;第十六节,文字序列预测;第十七届,神经架构设计;第十八节,个性化网络服务;第十九节,医疗;第二十节,金融;第二十一节,音乐生成;第二十二节,一个未回顾论文/话题的待办清单;第二十四节,讨论。

  特别地,我们将在23节中列举一系列关于强化学习的资源,包括图书、在线课程、教程、会议、期刊、研讨会乃至博客等。如果非要选择唯一一个推荐的强化学习的资源,那么应该是Sutton教授的强化学习书(RLBook,SuttonandBarto,2017,第二版正在编辑中)。它覆盖了强化学习的基础知识,并介绍了它最新的进展,包括深度Q网络、AlphaGo、梯度策略方法(PolicyGradientMethods)及在心理学与神经科方面的进展。对深度学习而言,则可以选择Goodfellow等人的书(2016)。

  2背景知识

  在这一节中,我们将会简要介绍在深度学习(SuttonandBarto,2017)与深度学习(Goodfellowetal.,2016)方面的基础知识与概念。

  2.1深度学习

  2.2强化学习

  2.3测试平台

  街机学习环境(ArcadeLearningEnvironment,ALE,Bellemareetal.,2013)是一个由2600个Atari游戏构成的用于研发及评估AI的框架。

  DeepMind团队则发布了它的第一人称视角3D游戏平台DeepMindLab(Beattieetal.,2016)。DeepMind及暴雪会合作以发布星际争霸2的人工智能研究环境(goo.gl/Ptiwfg)。

  OpenAIGym()是一个用于开发强化学习算法的工具包。它由一系列环境构成,包括了Atari游戏及模拟的机器人构成,以及一个用于比较及复现结果的网站。

  OpenAIUniverse()被用于将任一程序转换到一个Gym环境。Universe已经集成了许多的环境,包括Atari游戏、flash游戏、如MiniWorldofBitSand这样的浏览器任务。最近,侠盗猎车手5(GTA5)也已经被加入到Universe中来帮助模拟自动驾驶车辆。

  FAIRTorchCraft(Synnaeveetal.,2016)是一个为如星际争霸这样实时战略类(RTS)游戏开发的库。

  ViZDoom是一个基于《毁灭战士(Doom)》游戏的为研究视觉强化学习的研究平台。

  TORCS是一个赛车比赛驾驶模拟器(BernhardWymannetal.,2014)。

  MuJoCO(Multi-JointdynamicswithContact)是一个物理引擎,参见:

  Duanetal.,2016为连续控制任务给出了一个跑分平台,开源代码参见:

  NogueiraandCho(2016)展示了WebNav挑战,来测试维基百科链接导航。

  3深度Q网络(DEEPQ-NETWORK)

  

  算法1:深度Q网络,截取自Mnihetal.(2015)

  3.1双重DQN(DOUBLEDQN)

  3.2优先经验回放(PRIORITIZEDEXPERIENCEREPLAY)

  3.3对抗架构(DUELINGARCHITECTURE)

  3.4更多拓展

  4异步方法

  

  算法2:A3C,每个actor-learner线程,来自Mnihetal.(2016)

  5策略优化

  策略通常是随机的。然而在2014年,Silveretal.(2014)引入确定性策略梯度(DPG)来有效估计策略梯度。Lillicrapetal.(2016)用深度神经网络扩展了DPG。同时我们介绍了几份近期成果,包括引导策略搜索(GuidedPolicySearch,Levineetal.,2016a)、信赖域策略优化(TrustRegionPolicyOptimization,Schulmanetal.,2015)、基准测试结果(Duanetal.,2016)以及策略梯度与Q学习(ODonoghueetal.,2017)。

  5.1确定性策略梯度

  5.2深度确定性策略梯度

  5.3引导策略搜索

  5.4信赖域策略优化

  5.5基准测试结果

  Duanetal.(2016)提出了连续控制任务的基准,包括了一些经典任务(如车柱)、具有极大状态与动作空间的任务(如3D人形运动)、部分观察任务、层次结构任务,并实施了许多算法,包括批处理算法:REINFORCE算法、截断性自然策略梯度(TNPG)、奖励加权回归(RWR)、相对熵策略搜索(REPS)、信赖域策略优化(TRPO)、交叉熵方法(CEM)、自适应协方差矩阵进化策略(CMA-ES);也包括在线算法:深度确定性策略梯度(DDPG);还有批处理算法的重复性变体。开源地址:

  Duanetal.(2016)比较了各种算法,并表明DDPG、TRPO和截断性自然策略梯度(TNPG)(Schulmanetal.,2015)在训练深度神经网络策略中颇有成效,但分层任务(hierarchicaltasks)也还需要更好的算法。

  5.6结合策略梯度与Q-Learning

  逆向强化学习(IRL/inversereinforcementlearning)是给定观察最佳行为来确定奖励函数的问题(NgandRussell,2000)。在激励学习或学徒制学习中,代理学习使用来自专家的轨迹样本并从其演示中执行任务,代理学习没有强化信号,在训练时也没有来自专家的额外数据;模仿学习的两种主要方法是行为克隆和逆向强化学习;行为克隆被制定为监督学习问题,将状态行动对(state-actionpairs)从专家轨迹(experttrajectories)映射到策略中(HoandErmon,2016)。

  6.1生成对抗网络

  6.2生成对抗式模仿学习

  Tamaretal.(2016)提出了价值迭代网络(VIN),即一个用于近似价值迭代算法的完全可微分的CNN规划模块,它可用于学习规划,例如强化学习中的策略。与传统的规划相反,VIN是无模型的,其中的奖励和转移概率是要学习的神经网络的一部分,从而避免系统识别的问题。VIN可以通过反向传播进行端到端训练,它也可以在一组不同的任务中泛化:VIN可以泛化在一组不同的任务:简单的网格世界(gridworlds)、火星车导航、连续控制和用于维基百科链接导航的WebNavChallenge(NogueiraandCho,2016)。价值迭代网络及决斗网络(Wangetal.,2016b)的一个优点便是它们能为强化学习问题设计新型深度神经网络架构。欲访问有关VIN的博客,请点击goo.gl/Dr8gKL。

  8注意和记忆

  注意(attention)和记忆(memory)是两个重要的机制,在许多情况下它们一起发挥作用。

  Mnihetal.(2014)引入循环注意模型(RAM/recurrentattentionmodel)来关注图像或视频的区域或位置的选定序列,用于图像分类和对象检测。作者使用RL方法特别是REINFORCE算法来训练模型,以克服模型不可微分的问题,并对图像分类任务和动态视觉控制问题进行实验。Xuetal.(2015)整合了图像字幕的注意,用REINFORCE算法训练硬版本的注意机制,并在Flickr8k、Flickr30k和MSCOCO数据集上展示了注意的有效性。注意机制也应用到了NLP中,如Bahdanauetal.(2015;2017),以及应用外部记忆的可微分神经计算机中(Gravesetal.,2016)。

  Gravesetal.(2016)提出了可微分神经计算机(DNC),其中神经网络可以从外部存储器读取与写入,使DNC可以解决复杂的结构化的问题,而没有读写存储器的神经网络却不能解决。DNC将内存分配干扰最小化,并实现了长期存储。类似于常规计算机,在DNC中,神经网络是控制器,外部存储器是随机存取存储器;并且DNC用存储来表示并操纵复杂的数据结构。不同的是,DNC使用梯度下降来学习端对端的表示和操纵,而梯度下降的数据是目标导向的。当使用有监督学习来训练时,DNC可以解决合成问题来用于自然语言的推理;它可以解决交通网络中两个站点之间的最短路径定位问题和家庭树中的关系推理问题。当使用强化学习来训练时,DNC可以解决一个使用被符号序列指定的变动性目标的移动块拼图。DNC优于正常神经网络,如LSTM或DNC的前身神经图灵机(Gravesetal.,2014),若碰到更困难的问题,LSTM可能会失败。虽然这些实验是相对小规模的,我们仍期望看到DNC的进一步改进和应用。

  欲查阅Deepmind对于DNC的描述,请点击goo.gl/58mgoX。欲查阅注意与/或记忆的更多信息,如Baetal.(2014);Eslamietal.(2016);Gregoretal.(2015);Jaderbergetal.(2015);Oquabetal.(2015);Yangetal.(2015);ZagoruykoandKomodakis(2017);ZarembaandSutskever(2015);Westonetal.(2015);Sukhbaataretal.(2015);Baetal.(2016);Danihelkaetal.(2016);KaiserandBengio(2016),请参阅goo.gl/ArW2nE和goo.gl/UukROv,这是有关注意与记忆的博客。

  9无监督学习

  Jaderbergetal.(2017)提出了无监督的强化辅助学习(UNREAL),通过共享一个共同的表征(representation),并在通常的累积奖励之外最大化伪奖励功能,从而提高学习效率。UNREAL通过学习大量的可能训练信号而受益,特别是当外部奖励信号很少被观察到时。UNREAL由RNN-LSTM基本代理,像素控制,奖励预测和值函数重放组成。基本代理(baseagent)使用A3C进行在策略(on-policy)训练。观察、奖励和动作的经验存储于答复缓冲器(replybuffer)内,以供辅助任务使用。辅助策略使用基础CNN、LSTM以及解卷积网络(deconvolutionalnetwork)来使输入图像中不同区域的像素强度的变化最大化。奖励预测模块通过观察最后三个帧来预测下一帧中的短期外在奖励,以解决奖励稀疏性的问题。值函数重放则会进一步训练值函数。UNREAL改善了A3C在Atari游戏上的表现,并在3DLabyrinth游戏中表现出色。欲访问Deepmind有关UNREAL的官方博客,请点击goo.gl/zhqBGy。

  我们将在第13节讨论使用类似的无监督辅助学习的机器人导航以及生成式对抗网络(GAN),并在第6节讨论近期的无监督学习框架。也请参阅Suttonetal.(2011),一个用于以无监督感觉运动学习互动来学习知识的可扩展实时架构Horde.

  10学习去学习(LEARNINGTOLEARN)

  学习去学习与迁移学习、多任务学习或表征学习相关,是形成实现强大人工智能的核心要素之一(Lakeetal.,2016)。学习去学习也与元学习(metalearning)和一次性学习(one-shotlearning)有关。

  Duanetal.(2017)和Wangetal.(2016a)提出通过学习一个灵活的RNN模型来处理一系列RL任务,从而能够提高样本效率,能够从几个样本中学到新任务,并且可以从先验知识中获益。此代理使用RNN建模,并输入了观察、奖励、行动和终止标志;它使用RL,Duanetal.(2017)提出的TRPO和Wang等(2016a)的A3C算法来训练RNN的权重,并且在使用特定RL算法解决的多个问题中表现相似。Duan等在2017年使用多臂赌博机、表MDP和视觉导航进行了实验,并指出对于较大型的问题,需要更好的RL算法来训练RNN。Wangetal.(2016a)对独立臂赌博机、依赖臂赌博机、持续性臂和MDP进行了实验。未来的工作方向之一便是提高可扩展性。

  Li和Malik在2017年建议通过将特定的优化算法表示为策略,将收敛速度表示为奖励,以引导策略搜索(Levineetal.,2016a)来使无约束连续性优化算法自动化。

  11Games(博弈/游戏)

  游戏为强化学习/人工智能算法提供了非常好的测试平台。我们在第3节讨论了深度Q网络(DQN)及其延展,所有这些都在Atari游戏上做了测试。我们在第4节讨论了Mnihetal.(2016),在第9节讨论了Jaderbergetal.(2017),在第13节讨论了Mirowskietal.(2017)——他们使用了Labyrinth作为测试平台。

  西洋双陆棋和围棋是完美信息博弈(perfectinformationgames)。我们在11.1讨论了西洋双陆棋这样的棋盘游戏。在11.2讨论了Doom这样的视频游戏。我们将扑克游戏放到了11.3,讨论了非完美信息博弈(imperfectinformationgames),其中涉及到了博弈论(gametheory)。Labyrinth和Doom等视频游戏通常是非完美博弈,但是目前还没有使用博弈论来解决这些问题。

  我们将AlphaGo(Silveretal.,2016)单独成了第12节,因为其有很大的重要性。

  11.1棋盘游戏

  11.2视频游戏

  11.3非完美信息博弈

  AlphaGo(Silveretal.,2016)是一个计算机围棋程序,其在2015年10月份以5局全胜击败了欧洲围棋冠军,成为了第一个在全尺寸19×19棋盘上无让子地击败了人类职业棋手的计算机围棋程序。不久之后,2016年3月份,AlphaGo以4:1的成绩击败了曾获18次世界冠军的围棋手李世石,引起了世界的广泛关注。这是人工智能发展的一个里程碑。围棋问题的困难之处不仅在于其超大的搜索空间(searchspace)——250^150,一个天文数字;而且也是因为其局面评估(positionevaluation)的难度非常大,而西洋双陆棋和国际象棋等游戏已经通过局面评估得到了解决。

  12.1训练流程和蒙特卡洛树搜索(MCTS)

  我们在Silveretal.(2016)与SuttonandBarto(2017)的基础上简要讨论了AlphaGo的工作方式。参见SuttonandBarto(2017)中第16章可了解AlphaGo的详细和直观描述。DeepMind对AlphaGo的描述可查阅:goo.gl/lZoQ1d

  AlphaGo是使用深度CNN技术、监督学习、强化学习和蒙特卡洛树搜索(MCTS)(Browneetal.,2012;Gellyetal.,2012)打造的。AlphaGo的工作分成了两个阶段:神经网络训练流程和MCTS。其训练流程阶段包括根据专家的走子训练一个监督学习策略网络、快速部署策略、强化学习策略网络和强化学习价值网络。

  13-21:强化学习的应用介绍

  这几节介绍了强化学习的不同类型的应用,这里简单给出目录,详情请查阅原论文。

  13机器人学

  14口语对线个性化网络服务

  19医疗保健

  20金融

  21音乐生成

  22未来工作

  下面我们列出了上面的概述中没有讨论到的有趣的和/或重要的研究方向/论文,希望能够为有兴趣进一步研究它们的人提供信息入口。这也将是我们未来工作的一部分。

  ?理解机器学习(understandingdeeplearning),Danielyetal.(2016);Lietal.(2016b);Zhangetal.(2017)

  ?基于模型的学习(model-basedlearning)如:Ohetal.(2015);Guetal.(2016b)

  ?回溯算法(retracealgorithm),Munosetal.(2016)

  ?预测(predictron),Silveretal.(2017)

  ?分层强化学习(hierarchicalRL)如:Kulkarnietal.(2016);Vezhnevetsetal.(2016);Tessleretal.(2017);Florensaetal.(2017)

  ?迁移/多任务强化学习(transfer/multitaskRL)如:Maureretal.(2016);Moetal.(2016);Parisottoetal.(2016),NIPS2015TransferandMulti-TaskLearning:TrendsandNewPerspectivesWorkshop

  ?零次/一次性学习(zero/one-shotlearning)如:Vinyalsetal.(2016);Lakeetal.(2015);Johnsonetal.(2016)

  ?半监督强化学习(semi-supervisedRL)如:Finnetal.(2017)

  ?内在动机(intrinsicmotivation)如:Stadieetal.(2015);Kulkarnietal.(2016);Oudeyeretal.(2016)

  ?超参数学习(hyperparameterlearning)如:Andrychowiczetal.(2016)

  ?信息提取(informationextraction)如:Narasimhanetal.(2016)

  ?文本博弈(textgames)如:Heetal.(2016b);Narasimhanetal.(2015)

  ?语言树结构学习(languagetree-structurelearning)如:Yogatamaetal.(2017)

  ?问答系统(questionanswering)如:Shenetal.(2016);Trischleretal.(2016)

  ?大型动作空间(largeactionspace)如:Dulac-Arnoldetal.(2016);Heetal.(2016c)

  ?适应性规范化(adaptivenormalization),vanHasseltetal.(2016b)

  ?自动驾驶载具(self-drivingvehicle)如:Bojarskietal.(2016),NIPS2016WorkshoponMachineLearningforIntelligentTransportationSystems

  ?智能电网(smartgrid)如:Wenetal.(2015b)

  ?通信网络(communicationnetworks)如:Mestresetal.(2016)

  ?物理实验(physicsexperiments)如:Deniletal.(2016)

  ?深度概率编程(deepprobabilisticprogramming),Tranetal.(2017)

  ?深度博弈学习(deeplearninggames),SchuurmansandZinkevich(2016)

  ?程序学习(programlearning)如:ReedanddeFreitas(2016)

  ?量子强化学习(quantumRL)如:Crawfordetal.(2016),NIPS2015WorkshoponQuantumMachineLearning

  23资源

  我们列出了一些用于深度强化学习的资源,当然并不能做到完全。

  23.1书籍

  ?RichardS.Sutton和AndrewG.Barto所著的毫无疑问的和直观的强化学习书(SuttonandBarto,2017)

  ?简明和理论性的《AlgorithmsforReinforcementLearning》,作者:CsabaSzepesvari(Szepesvari,2010)

  ?一本关于近似动态编程的理论书籍,作者:DimitriP.Bertsekas(Bertsekas,2012)

  ?一本面向运筹学的书《ApproximateDynamicProgramming》,作者:WarrenB.Powell(Powell,2011)

  ?《DeepLearning》,作者:IanGoodfellow,YoshuaBengio和AaronCourville(Goodfellowetal.,2016)

  23.2课程

  ?DavidSilver,强化学习(ReinforcementLearning),2015,幻灯片:goo.gl/UqaxlO,视频:goo.gl/7BVRkT

  ?SergeyLevine,JohnSchulmanandChelseaFinn,CS294:深度强化学习(DeepReinforcementLearning)2017年春季课程,

  ?CharlesIsbell,MichaelLittmanandPushkarKolhe,Udacity:机器学习:强化学习(MachineLearning:ReinforcementLearning),goo.gl/eyvLfg

  ?李飞飞、AndrejKarpathy和JustinJohnson,CS231n:用于视觉识别的卷积神经网络(ConvolutionalNeuralNetworksforVisualRecognition),

  ?RichardSocher,CS224d:用于自然语言处理的深度学习(DeepLearningforNaturalLanguageProcessing),

  ?NandodeFreitas,深度学习课程(DeepLearningLectures),

  23.3教程

  ?DavidSilver,深度强化学习(DeepReinforcementLearning),ICML2016

  ?PieterAbbeel和JohnSchulman,通过策略优化的深度强化学习(DeepReinforcementLearningThroughPolicyOptimization),NIPS2016

  ?吴恩达,使用深度学习开发人工智能应用的基本要点(NutsandBoltsofBuildingApplicationsusingDeepLearning),NIPS2016

  ?JohnSchulman,深度强化学习研究的基本要点(TheNutsandBoltsofDeepReinforcementLearningResearch),深度强化学习研讨会,NIPS2016

  ?JohnSchulman,深度强化学习(DeepReinforcementLearning),DeepLearningSchool,2016

  ?DavidSilver,DeepReinforcementLearning,第二届强化学习与决策多学科会议(RLDM),Edmonton2015;

  ?JoellePineau,强化学习入门(IntroductiontoReinforcementLearning),DeepLearningSummerSchool,2016;

  23.4会议、期刊和研讨会

  ?NIPS:神经信息处理系统

  ?ICML:国际机器学习大会

  ?ICLR:国际学习表征大会

  ?RLDM:强化学习与决策多学科会议

  ?NatureMay2015,ScienceJuly2015,搜索关于机器学习/人工智能的论文

  23.5博客

  ?DennyBritz,尤其是goo.gl/MyrwDC

  ?邓力,深度强化学习可以如何帮助打造聊天机器人(Howdeepreinforcementlearningcanhelpchatbots)

  在这个信息/社交网络时代,信息已经超过了我们的极限,比如来自Twitter、Google+、微信、arXiv等的信息。有效地筛选最佳信息的技巧变得十分关键。

  24讨论

  这是深度强化学习最好的时代,也是深度强化学习最坏的时代,而原因却是一样的:它以惊人的速度在发展。我们已经看到了突破、激动人心的新方法和应用,并且还有望看到更多和见证更快的发展。因此,不管是在深度还是在广度上,这篇概述都是不完整的。但是,我们也尽量总结这一惊人领域的重要成就并讨论其潜在的方向和应用。

  深度强化学习这一领域的进步是有目共睹的,在不到两年时间内,我们就看到Nature上发表了三篇使用了深度强化学习的论文:深度Q网络(deepQ-network)(Mnihetal.,2015)、AlphaGo(Silveretal.,2016)和可微分神经计算机(Gravesetal.,2016);我们也已经见证了许多深度Q网络上的扩展、改进和应用。注意和记忆机制(Gravesetal.,2016)也得到了很大的关注。

  2016年,使用了深度强化学习的全新架构和应用在许多顶级会议上被评选为最佳(学生)论文:ICML上的决斗网络(duelingnetwork)架构(Wangetal.,2016a)、ACL上的口语对话系统(Suetal.,2016b)(学生论文)、EMNLP上的信息提取(Narasimhanetal.,2016)、以及NIPS上的价值迭代网络(valueiterationnetworks)(Tamaretal.,2016)。激动人心的成就比比皆是:异步方法(Mnihetal.,2016)、用于机器翻译的双学习(duallearning)(Heetal.,2016a)、有引导的策略搜索(Levineetal.,2016a)、生成对抗式模仿学习(HoandErmon,2016)、无监督强化和辅助学习(Jaderbergetal.,2017)、神经架构设计(ZophandLe,2017)等等。

  价值函数是强化学习的核心,比如在深度Q网络及其许多扩展中。策略优化方法已经在许多不同的应用领域得到了关注,比如:机器人、神经架构设计、口语对话系统、机器翻译、注意(attention)和学习去学习(learningtolearn)等等,不能胜举。新的学习机制也在涌现,比如:使用无监督/半监督/迁移学习来提升学习的质量和速度,而且更多的新机制还将涌现。这是强化学习的复兴(Krakovsky,2016)。事实上,即使是在「人工智能的冬天」,强化学习和深度学习也在不断发展进步。

  考虑学习模型的问题是非常关键的,这些问题包括稳定性、收敛性、准确度、数据效率、可扩展性、速度、简洁性、可解释性、稳健性和安全性等。调查评论/批评也是很重要的,这些批评可能来自认知科学领域,涉及到直观物理学、直观心理学、因果模型、组合性、学习去学习、实时运行(Lakeetal.,2016)等问题;这能够帮助我们打造出更强大的人工智能。也请参考PeterNorvig的观点goo.gl/obvmVB.

  在这第三波人工智能的大潮下,深度学习将会有更为深度的影响,正如我们已经见证的许多成就一样。强化学习作为一种更为通用的学习和决策范式,将会给深度学习、机器学习和广义上的人工智能带来深远的影响。这里提一件有趣的故事,当RichSutton教授2003年在阿尔伯塔大学开始工作时,他将他的实验室命名为了RLAI:ReinforcementLearningandArti?cialIntelligence(强化学习与人工智能实验室)。

  感谢来自BaochunBai胡峻玲(JunlingHu),RuitongHuang,LihongLi,DaleSchuurmans,DavidSilver,RichSutton,CsabaSzepesvari,YiWan和QingYu的建议。任何剩余错误为本文作者所出。本文同时受益于各类研讨会/网上讨论,特别是2016年4月在MIT举行的AlphaGo研讨会,以及2016年10月份『机器之心』北美系列巡游活动中在多伦多大学、McGill大学和阿尔伯塔大学举办的深度(强化)学习研讨会。另外也要感谢2016年11月关于DavidSilver幻灯片的网上研讨会,以及几个微信群组中的讨论。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐