Google开源基于TensorFlow的增强学习框架Dopamine,,增强学习通过奖励或是_今日看点

[摘要] 原标题：Google开源基于TensorFlow的增强学习框架Dopamine Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine，这个函式库专门用于街机游戏训练环境，解决现存增强学习框架不

原标题：Google开源基于TensorFlow的增强学习框架Dopamine

Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine，这个函式库专门用于街机游戏训练环境，解决现存增强学习框架不够灵活的问题，另外，Google还发布了一个网站，允许开发人员视觉化执行多个人工智...

Google宣布开源基于机器学习函式库TensorFlow的增强学习框架Dopamine，这个函式库专门用于街机游戏训练环境，解决现存增强学习框架不够灵活的问题，另外，Google还发布了一个网站，允许开发人员视觉化执行多个人工智能代理人训练。

增强学习通过奖励或是惩罚，驱动代理人朝着特定目标前进，近几年有了长足的进展，包括用于围棋对弈的AlphaGo和AlphaGo△Zero，以及DeepMind开发来游玩Atari游戏的DQN（Deep△Q-Network），还有最近才刚和顶尖Dota△2人类玩家对战过的Open△AI△Five。Google提到，这类技术的进展很重要，因为这些演算法不只能用在游玩游戏，还可使用于发展机器人技术。

这些开发工作需要快速迭代设计，因为通常系统发展并没有明确的开发方向，而且需要破坏既定方法的结构，Google提到，现存大多数的增强学习框架不够灵活也不够稳定，使研究人员无法快速的迭代增强学习的方法，限制了探索更多研究方向的可能，而且这些框架还有相同的问题，那就是重现结果需要花费大量时间，这影响科学验证的重现性。

为了解决这些问题，Google开发了基于Tensorflow的框架Dopamine，目的是为增强学习人员提供灵活、稳定和可重复的开发工具。这个函式库是为街机学习环境设计，并且提供4个基于值的代理人，包括 DQN、C51、Rainbow简化版以及隐分位数网络（Implicit△Quantile△Network，IQN）。IQN代理人是Google在7月，才于国际机器学习大会（ICML）中发表，而现在开发人员已经可以在Dopamine中使用。

为支援科学应用，Dopamine强调了过程与结果的可重复性，因此Google为Dopamine提供完整程式码测试覆盖，而这些测试能以另外的文件形式提供。而且对于新的研究人员来说，能够根据既定的方法，快速对新想法进行基准测试是一件重要的事，为此，在Dopamine街机学习环境中的60个游戏，Google为4个代理人提供完整的训练资料，格式除了Python的Pickle档案可用于Dopamine系统外，同时也有JSON的资料档案可用在其他框架。

另外，Google也提供可以视觉化查看代理人执行游戏训练资料的网站，以及内含这些代理人已经训练好的深度网络、原始统计日志，以及可以在Tensorboard绘制的Tensorflow事件档案。Google提到，Dopamine的易用性，可以支援渐进式和激进式的研究方法。详细的资料以及程式码可以在GitHub中取得。

橙山网（Csnd.net）简评：增强学习通过奖励或是惩罚，驱动代理人朝着特定目标前进，近几年有了长足的进展，包括用于围棋对弈的AlphaGo和AlphaGo△Zero，以及DeepMind开发来游玩Atari游戏的DQN（Deep△

Google开源基于TensorFlow的增强学习框架Dopamine,,增强学习通过奖励或是

相关阅读

网友评论

热门推荐

星百问

综艺节目