橙山网 > 泛娱乐 > 今日看点 > 正文

Google开源基于TensorFlow的增强学习框架Dopamine,,增强学习通过奖励或是

橙山网(www.csnd.net)2018-08-29 20:08:35

[摘要] 原标题:Google开源基于TensorFlow的增强学习框架Dopamine Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不

原标题:Google开源基于TensorFlow的增强学习框架Dopamine

Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不够灵活的问题,另外,Google还发布了一个网站,允许开发人员视觉化执行多个人工智...

Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine,这个函式库专门用于街机游戏训练环境,解决现存增强学习框架不够灵活的问题,另外,Google还发布了一个网站,允许开发人员视觉化执行多个人工智能代理人训练。

增强学习通过奖励或是惩罚,驱动代理人朝着特定目标前进,近几年有了长足的进展,包括用于围棋对弈的AlphaGo和AlphaGo△Zero,以及DeepMind开发来游玩Atari游戏的DQN(Deep△Q-Network),还有最近才刚和顶尖Dota△2人类玩家对战过的Open△AI△Five。Google提到,这类技术的进展很重要,因为这些演算法不只能用在游玩游戏,还可使用于发展机器人技术。

这些开发工作需要快速迭代设计,因为通常系统发展并没有明确的开发方向,而且需要破坏既定方法的结构,Google提到,现存大多数的增强学习框架不够灵活也不够稳定,使研究人员无法快速的迭代增强学习的方法,限制了探索更多研究方向的可能,而且这些框架还有相同的问题,那就是重现结果需要花费大量时间,这影响科学验证的重现性。

为了解决这些问题,Google开发了基于Tensorflow的框架Dopamine,目的是为增强学习人员提供灵活、稳定和可重复的开发工具。这个函式库是为街机学习环境设计,并且提供4个基于值的代理人,包括 DQN、C51、Rainbow简化版以及隐分位数网络(Implicit△Quantile△Network,IQN)。IQN代理人是Google在7月,才于国际机器学习大会(ICML)中发表,而现在开发人员已经可以在Dopamine中使用。

为支援科学应用,Dopamine强调了过程与结果的可重复性,因此Google为Dopamine提供完整程式码测试覆盖,而这些测试能以另外的文件形式提供。而且对于新的研究人员来说,能够根据既定的方法,快速对新想法进行基准测试是一件重要的事,为此,在Dopamine街机学习环境中的60个游戏,Google为4个代理人提供完整的训练资料,格式除了Python的Pickle档案可用于Dopamine系统外,同时也有JSON的资料档案可用在其他框架。

另外,Google也提供可以视觉化查看代理人执行游戏训练资料的网站,以及内含这些代理人已经训练好的深度网络、原始统计日志,以及可以在Tensorboard绘制的Tensorflow事件档案。Google提到,Dopamine的易用性,可以支援渐进式和激进式的研究方法。详细的资料以及程式码可以在GitHub中取得。

橙山网(Csnd.net)简评:增强学习通过奖励或是惩罚,驱动代理人朝着特定目标前进,近几年有了长足的进展,包括用于围棋对弈的AlphaGo和AlphaGo△Zero,以及DeepMind开发来游玩Atari游戏的DQN(Deep△

热 门
明 星
黄卓玲 艾丽卡·巴赫蕾达 里基·洛克·拜斯伍德 辛芷蕾 米歇尔·诺尔 林文慧 西尼·乌夏恩 矶山さやか 鄢颇 迈克尔C·威廉姆斯 雨天 樊少皇 大岛里美 萧锋 马修·古迪 何冰 叶一茜 杰森·克拉克 1975-04-11 男子假冒美女相亲 回顾案件真相过程 1989-03-07 宋丹 山内菜々 跨省酒托 癌症复发办告别宴是怎么回事? 真相令人泪目 程可为 严丽祯 超级女生 尾气 1979-03-25 老生常谈 超人大战蝙蝠侠 斯科特伊斯特伍德 力挺大S 张薇 保罗.麦克吉莱恩