新闻 产经 产业 财经 智库 访谈 专题 数据 法规 文化 品牌
网站首页-> 数据->

DeepMind发布了Acme 这是一种用于强化学习算法开发的分布式框架

来源: 发布时间:2022-01-27 22:59:10 搜集整理:中国产业网

DeepMind本周发布了Acme框架,该框架旨在通过使AI驱动的代理以各种执行规模运行来简化增强学习算法的开发。据Acme背后的工程师和研究人员共同撰写了有关这项工作的技术论文,据此,它可以用于创建比以前的方法具有更大并行化的代理。

强化学习涉及与环境互动以生成自己的训练数据的特工,这导致了从视频游戏和机器人技术到自动驾驶机器人出租车领域的突破。最近的进展部分归因于所使用的训练数据量的增加,这刺激了系统的设计,在这些系统中,代理与环境实例进行交互以快速积累经验。DeepMind断言,从算法的单进程原型到分布式系统的这种扩展通常需要重新实现所讨论的代理,这就是Acme框架的所在。

Acme是用于培训强化学习代理的开发套件,该套件试图解决复杂性和规模问题,其组件用于构建从算法和策略到学习者的各种抽象级别的代理。人们认为,这将允许思想的快速迭代和生产中这些思想的评估,主要是通过训练循环,强迫记录和检查点。

在Acme内部,参与者与环境紧密互动,观察环境产生的观察结果,并采取相应的行动,将其反馈到环境中。在观察到随之而来的过渡之后,演员们有机会更新自己的状态。这最常与他们的行动选择政策有关,后者决定了他们针对环境采取的行动。一种特殊类型的Acme actor包括表演和学习两个部分,它们被称为“代理”,并且其状态更新由学习者内部的一些步骤触发。也就是说,主体在很大程度上将他们的行动选择推迟到他们自己的行动组成部分。

Acme提供了一个数据集模块,位于参与者和学习者组件之间,并由称为Reverb的低级存储系统提供支持,DeepMind本周还发布了该存储系统。此外,该框架还建立了一个用于插入Reverb的通用接口,从而实现了不同风格的预处理以及正在进行的观测数据聚合。

行动,学习和存储组件在Acme内的不同线程或进程之间划分,这具有两个好处:环境交互与学习过程异步发生,并且数据生成加速。在其他地方,Acme的速率限制允许从学习到行动执行所需的速率,只要流程保持在一定的定义公差内,就可以不受阻碍地运行。例如,如果一个进程由于网络问题或资源不足而开始落后于另一个进程,则速率限制器将阻止落后进程,而另一个进程会赶上。

除了这些工具和资源之外,Acme还附带了一组示例代理,旨在用作其各自的强化学习算法以及强大的研究基准的参考实现。DeepMind说,将来可能会有更多可用。研究人员写道:“通过提供这些……我们希望Acme将帮助改善[强化学习]中的可再现性,并为学术研究社区提供简单的构建新代理的能力。”“此外,我们的基准还应该提供其他标准来衡量该领域的进展。”

更多

扩展阅读

我来说两句( 0)
    用户名:
    [Ctrl+Enter]
争先创优活动