机器之心报道
编辑:陈萍、杜伟
(相关资料图)
Madrona 作为一个研究型游戏引擎,专为创建智能体学习环境而设计。
现阶段,AI 智能体仿佛无所不能,玩游戏、模仿人类完成各种任务,而这些智能体基本是在复杂环境中训练而成的。不仅如此,随着学习任务变得越来越复杂,模拟环境的复杂性也随之增加,从而增加了模拟环境的成本。
即使拥有超级计算规模资源的公司和机构,训练好一个可用的智能体也可能需要数天的时间才能完成。
这阻碍了该领域的进展,降低了训练先进 AI 智能体的实用性。为了解决环境模拟的高成本问题,最近的研究努力从根本上重新设计模拟器,以在训练智能体时实现更高的效率。这些工作共享批量模拟的思想,即在单个模拟器引擎内同时执行许多独立的环境(训练实例)。
本文,来自斯坦福大学等机构的研究者, 他们提出了一个名为 Madrona 的强化学习游戏引擎,可以在单个 GPU 上并行运行数千个环境,将智能体的训练时间从几小时缩减到几分钟 。
论文地址: 论文主页:/具体而言,Madrona 是一款研究型游戏引擎,专为创建学习环境而设计,可以在单个 GPU 上同时运行数千个环境实例,并且以极高的吞吐量(每秒数百万个聚合步骤)执行。Madrona 的目标是让研究人员更轻松地为各种任务创建新的高性能环境,从而使 AI 智能体训练的速度提高几个数量级。
Madrona 具有以下特点:
GPU 批量模拟:单个 GPU 上可运行数千个环境; 实体组件系统 (ECS) 架构; 可与 PyTorch 轻松互操作。Madrona 环境示例:
上面我们已经提到,该研究利用了 ECS 设计原则,其具体过程如下:
研究者借助 Madrona 框架,实现了多个学习环境,结果表明,相较于开源 CPU 基线,GPU 的速度提升达到了两到三个数量级,相较于在 32 线程 CPU 上运行的强基线,速度提升为 5-33 倍。此外,该研究还在该框架中实现了 OpenAI 的「hide and seek 3D」环境,每个模拟步骤都执行刚体物理学和光线追踪,在单个 GPU 上实现了每秒超过 190 万个 step 速度。
作者之一、斯坦福大学计算机科学副教授 Kayvon Fatahalian 表示,在一款让多个智能体玩烹饪游戏 Overcooked 上,借助 Madrona 游戏引擎,模拟 800 万个环境步骤的时间从一小时缩短到三秒。
目前,Madrona 需要使用 C++ 来编写游戏逻辑。Madrona 仅提供了可视化渲染支持,虽然它可以同时模拟数千个环境,但可视化器一次只能查看一个环境。
基于 Madrona 搭建的环境模拟器有哪些?
Madrona 本身不是一个 RL 环境模拟器,而是一个游戏引擎或框架。开发者借助它可以更容易地实现自己的新的环境模拟器,从而通过在 GPU 上运行批次模拟并将模拟输出与学习代码紧密结合来实现高性能。
下面是基于 Madrona 搭建的一些环境模拟器。
Madrona Escape Room
Madrona Escape Room 是一个简单的 3D 环境,使用了 Madrona 的 ECS API 以及物理和渲染功能。在这个简单任务中,智能体必须学习按下红色按钮并推动其他颜色的箱子以通过一系列房间。
Overcooked AI
Overcooked AI 环境是一个基于协作电子游戏的多智能体学习环境(多人协作烹饪游戏),这里对它进行了高通量 Madrona 重写。
图源:/zh-CN/p/overcooked
Hide and Seek
2019 年 9 月,OpenAI 智能体上演了捉迷藏攻防大战,自创套路与反套路。这里使用 Madrona 对「Hide and Seek」环境进行了复现。
Hanabi
Hanabi 是一个基于 Madrona 游戏引擎的 Hanabi 纸牌游戏的实现,也是一个协作式 Dec-POMDP。该环境基于 DeepMind 的 Hanabi 环境,并支持部分 MAPPO 实现。
Cartpole
Cartpole 是一个典型的 RL 训练环境,它与构建在 Madrona 游戏引擎之上的 gym 实现有相同的动力学。
GitHub 地址:/shacklettbp/madrona
Overcooked 烹饪游戏:一分钟内训练最佳智能体
Overcooked in Thousands of Kitchens: Training Top Performing Agents in Under a Minute
论文作者之一、斯坦福大学本科生 Bidipta Sarkar 撰写博客详细介绍了训练智能体玩 Overcooked 烹饪游戏的过程。Overcooked 是一款流行的烹饪游戏, 也可以作为协作多智能体研究的基准。
在 Sarkar 的 RL 研究中,模拟虚拟环境的高成本对他来说始终是训练智能体的一大障碍。
就 Overcooked 烹饪游戏而言,大约需要 800 万步的游戏经验,才能训练一对在 Overcooked 狭窄房间布局(下图)中收敛到稳定均衡策略的智能体。Overcooked 的开源实现使用 Python 编写,在 8 核 AMD CPU 上每秒运行 2000 步,因此生成必要的智能体经验需要花费 1 个小时以上。
相比之下,在英伟达 A40 GPU 上执行训练所需的所有其他操作(包括所有 800 万个模拟步骤的策略推理、策略训练的反向传播)仅需不到 1 分钟的时间。很显然,训练 Overcooked 智能体受限于 Overcooked 环境模拟器的速度。
考虑到 Overcooked 是一个简单的环境,让模拟速度难住似乎很愚蠢。因此 Sarkar 试着看看 Overcooked 环境模拟的速度是否可以提升,这就需要用到 Madrona 游戏引擎。
利用 Madrona 游戏引擎,Sarkar 得到了一个原始 Overcooked Python 实现的即插即用的 GPU 加速版替代。当并行模拟 1000 个 Overcooked 环境时,GPU 加速后的实现在 A40 GPU 上每秒可以生成 350 万步经验。
作为结果,模拟 800 万个环境步骤的时间从 1 小时缩短至了 3 秒,从而可以使用 A40 GPU 在短短 1 分钟内训练一个策略。
该模拟器的速度为在 Overcooked 中执行广泛的超参数扫描打开了新的可能性,尤其是在以往训练单个策略所需的时间内有了训练多个策略的可能。
最后,Sarkar 意识到与创建 GPU 加速环境的现有替代方案(如 PyTorch、Taichi Lang、Direct CUDA C++)相比,将 Overcooked 移植到 Madrona 的过程更加地顺利。
博客详情:/blog/overcooked_madrona/
参考链接:/
关键词:
- 家电行业进入多元化 我国智能家电市场规模进一步增
- 佛山向欧盟出口供暖设备同比增长154.4% “暖家电”
- 格兰仕家用电器持续增持 占公司总股本1.24%
- 面板厂商持续加码产能 OLED能否迎来爆发式增长?
- 洗鞋机是一匹“黑马”吗? 能否创造下一个风口
- 8月空调行业最忙碌 它们将哪些新动作又将如何惊艳
- 单GPU运行数千环境、800万步模拟只需3秒,斯坦福超
- 线下陪拍服务调查 花钱买来的陪拍靠谱吗?
- 2024年高考作文预测:超越法则,创造艺术
- 市场消息
- 青岛:55万平方米围挡“焕新”提升城市品质,年底前
- 最新测报!大清河行洪水位流量即将达到峰值!就在明
- 北京城市规划板块8月8日跌1%,京投发展领跌,主力资
- 兰卫医学(301060):8月8日北向资金减持29.15万股
- 世界杯八强出炉!日本法国领衔,美国女足出局,非洲
- 配电室10kv,广州市荔湾区智能配电室运维单位哪家安
- 38集仙侠剧首播,阵容强大,必炸!
- 九龙湖欧洲小镇地址(九龙湖欧洲小镇)
- 人走不碍赚钱!巴黎专卖店仍然在出售梅西30号球衣
- 深圳市第二批“20+8”产业基金中,高端装备及新材料
- 家乡的电影参加家乡的电影节 动画电影《茶啊二中》
- 三星堆与蜀道申遗应当如何作为?文博专家们如此建议
- 张店的最燃“村马” 激情开跑!
- 最新!公积金两份办法修订出台,9月1日起施行!
- 天音控股最新公告:拟定增募资不超过25亿元
- V观财报|云南城投两跌停:生产经营正常,房地产业
- 辽代木构建筑开善寺大殿泡水受损?文保所长回应:没
- 人见人爱的“封神质子团”:身材管理在线,对角色有
- 8月8日,一个值得记住的日子
- 把大模型装进手机,分几步?
- 直播电商数字化再升级 谦寻发布AI数字人业务和一站
- 拜仁CEO:诺伊尔受伤时索默扭转了困难的局面,我们
- 明朝大将蓝玉竟被剥皮后送给王妃
- 梅清看山
- 虹软科技股东瑞联新产业减持812万股 套现3.17亿 2
- 瀚川智能:拟回购不低于3000万元且不超过6000万元公
- 建发新胜(00731.HK):施晨烨辞任执行董事兼副行政总裁
- 课程分享 光影7号c4d和 AE商业实战
- 铜川高新实验学校招聘启事
- 中泰证券给予春秋航空买入评级 时刻与航网优化 引
- 夏亦丰:代建行业的集中度非常高 | 博鳌快讯
- 新华全媒+|天津:午夜循光访洪区
- @司机,运输一次性不可降解塑料制品进岛将处罚,列
- 困难职工帮扶管理办法(困难职工帮扶系统)
- 东鹏饮料业绩大增,券商看好其潜力和发展战略|挖掘
- 华润双鹤:子公司药品注射用兰索拉唑通过仿制药质量
- 三星:两款折叠新机在韩国本土预售量达102万部 创
- 伟时电子5.9亿元可转债申请获上交所受理
- 硝酸铵化学式是什么意思 硝酸铵化学式
- 苹果Vision Pro新专利公布:嵌入iPhone可充当屏幕
- 《乐夏3》公布阵容:共27支乐队,那英等以超级乐迷
- “大运会是新的起点!”
- 哈尔滨尚志市新闻头条 黑龙江尚志市:致全体市民的
- 宝安区标尚学校2023年小一自主招生公告
- 青海都兰:草原风光美如画 千年牧道转场忙
- 不到200米的小路开了三家书店,到这里感受“书香杨
- 机构:上半年国内乘用车中控及仪表盘显示器搭载量同
- 上海市奉贤区人大常委会原主任袁晓林一审被判刑十年
- 安踏李宁瞄准“女性生意”
- 恒宇天泽一私募产品或涉“资金池”,托管人招商证券
- 悬疑剧成为优爱腾的「降温神器」
- 两笔美元债利息未付 碧桂园称出现流动性压力 正优
- 五种专科不建议专升本 都是什么
- 合力泰控制权转让进展
- 山东40条政策措施进一步提振扩大消费 涉及汽车、住
- 京东方入股,天禄科技加速TAC膜国产化
- 国家标准委等六部门联合印发 《氢能产业标准体系建
- 宏微科技精彩亮相2023慕尼黑上海电子展
- 车评头条:风神新A60首试:老酒换新瓶酒香还在不
- 2023年8月8日压滤机破胶絮凝剂价格最新行情预测
- 八亿时空“年产100吨显示用液晶材料二期工程”项目
- 瑞联新材:未来的增长主要是面板平均尺寸的增长
- China Orient Asset Management (International
- 美巢腻子粉怎样辨别真伪
- 受害人敲诈勒索立案的标准
- 想买5系的等等!宝马525Li、530Li或将停产 全新5系
- 8月上旬面板价格出炉:电视面板续涨
- 2倍牛股突然闪崩,发生了什么?业绩创新高股出炉,
- 无人机升起涿州通信“生命线”
- 快递不慎掉落路上,公交人接力完璧归赵
- 乳腺囊肿是怎么回事啊怎样形成的(乳腺囊肿是怎么回
- 小黄车押金退不回来找哪个单位有用_小黄车押金退不
- 万达集团高级副总裁刘海波被带走 分管集团投资业务
- 上海青浦中环境秋悦庭被投诉“地下车库漏水墙面发霉
- 安格尔:家居新宠都是更好的提升了用户体验
- 彭文生:公共债务与代际平衡
- 第十一届茅奖提名名单出炉 5部作品曾入选封面新闻
- 正保会计网校:财会高端人才紧缺 职业教育促进人才
- 为什么人们选择硅打造半导体元器件
- 新疆着力培养相关专业技术人才 促进传统工业与数字
- 浦发银行合肥分行积极做好公众服务,依托活动拓展公
- 多支救援队在河北涿州开展重点区域清淤排涝工作
- 银河磁体:公司目前没有进行用于车辆悬浮和牵引系统
- 有消息称,抖音生活服务上半年 GMV 超 1000 亿元
- 高中家长会欢迎词500字(高中家长会欢迎词)
- 北京市场监管:房山区受水浸、水泡电梯已达近千部,
- 立秋丨耕耘有时 收获将至
- 金山娱乐2023官方版-2.09 Inurl:fayunsi(金山娱乐)
- 广西认定24家科技成果转化中试基地 产学研用拧成一
- 美国男篮热身赛首发出炉:莺歌、华子、布伦森、大乔
- 朱艳花(对于朱艳花简单介绍)
- 江苏镇江供电公司在扬中市开展新型电力系统试点
- 国际奥委会媒体运行前总监:中国办赛的能力令人叹服
- 国家文物局回应社会关切 将继续解决博物馆预约难问
- 重庆从查办一案到治理一域 “室组地”联动督促除险
- 小米Civi 3手机如何打开游戏助手