[摘要] 原标题:Google开源基于TensorFlow的增强学习框架Dopamine Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不
原标题:Google开源基于TensorFlow的增强学习框架Dopamine
Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不够灵活的问题,另外,Google还发布了一个网站,允许开发人员视觉化执行多个人工智...
Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不够灵活的问题,另外,Google还发布了一个网站,允许开发人员视觉化执行多个人工智能代理人训练。
增强学习通过奖励或是惩罚,驱动代理人朝着特定目标前进,近几年有了长足的进展,包括用于围棋对弈的AlphaGo和AlphaGo△Zero,以及DeepMind开发来游玩Atari游戏的DQN(Deep△Q-Network),还有最近才刚和顶尖Dota△2人类玩家对战过的Open△AI△Five。Google提到,这类技术的进展很重要,因为这些演算法不只能用在游玩游戏,还可使用于发展机器人技术。
这些开发工作需要快速迭代设计,因为通常系统发展并没有明确的开发方向,而且需要破坏既定方法的结构,Google提到,现存大多数的增强学习框架不够灵活也不够稳定,使研究人员无法快速的迭代增强学习的方法,限制了探索更多研究方向的可能,而且这些框架还有相同的问题,那就是重现结果需要花费大量时间,这影响科学验证的重现性。
为了解决这些问题,Google开发了基于Tensorflow的框架Dopamine,目的是为增强学习人员提供灵活、稳定和可重复的开发工具。这个函式库是为街机学习环境设计,并且提供4个基于值的代理人,包括 DQN、C51、Rainbow简化版以及隐分位数网络(Implicit△Quantile△Network,IQN)。IQN代理人是Google在7月,才于国际机器学习大会(ICML)中发表,而现在开发人员已经可以在Dopamine中使用。
为支援科学应用,Dopamine强调了过程与结果的可重复性,因此Google为Dopamine提供完整程式码测试覆盖,而这些测试能以另外的文件形式提供。而且对于新的研究人员来说,能够根据既定的方法,快速对新想法进行基准测试是一件重要的事,为此,在Dopamine街机学习环境中的60个游戏,Google为4个代理人提供完整的训练资料,格式除了Python的Pickle档案可用于Dopamine系统外,同时也有JSON的资料档案可用在其他框架。
另外,Google也提供可以视觉化查看代理人执行游戏训练资料的网站,以及内含这些代理人已经训练好的深度网络、原始统计日志,以及可以在Tensorboard绘制的Tensorflow事件档案。Google提到,Dopamine的易用性,可以支援渐进式和激进式的研究方法。详细的资料以及程式码可以在GitHub中取得。
橙山网(Csnd.net)简评:增强学习通过奖励或是惩罚,驱动代理人朝着特定目标前进,近几年有了长足的进展,包括用于围棋对弈的AlphaGo和AlphaGo△Zero,以及DeepMind开发来游玩Atari游戏的DQN(Deep△
网友评论