AI：我像真正的小知己一样挖矿！《我的世界》：不你不像

来源：互联网编辑：wan玩得好手游小编更新：2024-04-09 17:24:04 人气:

本文由《Nature 天然科研》受权转载，欢迎拜访存眷。

原文作者：Jeremy Hsu

MineRL竞赛鼓舞递次员开发能从示例中学习的递次。

想要区分最早进的人工智能和七岁孩子的智力差距，只有用风行全球的电子游戏《我的世界》（Minecraft）就够了。小知己只要在Youtube上不雅看十分钟的演示视频，就可以学会如何在游戏中查寻稀有的钻石——而这是AI无法企及的高度。不外，在不多不久不多前刚完毕的一场特殊的计算机竞赛中，研究人员希图缩小机械与儿童的智力差距，同时减小练习AI时的算力需求。

一些研究人员暗示，《我的世界》中开放终端的游戏环境很适实用于AI研究。来源：微软

在这个竞赛中，选手需要在4天时间内用不超越800万步计算来练习他们的AI寻到钻石。虽然这还是比小知己的学习时间要长许多，但是比今朝典型的AI模型要快了许多。

此次竞赛的目的在于促进模拟学习办法的展开。模拟学习与今朝盛行的强化学习有许多不同。强化学习的递次通过几千或几百万次的试错来查寻最优流程，被网飞（Netflix）用于生成用户保举信息，为工厂中的机械臂创建练习办法，乃至可以在游戏中战胜人类。但实现这一切需要多量的时间和计算资源。想要将强化学习用于构建安全的主动驾驶算法或把握围棋等复杂游戏，需要不计其数台计算机并行任务，运行抵得上几百年的模拟，而以上这些只有财力雄厚的当局或企业才干实现。

模拟学习则可以通过模拟人类乃至其他AI算法完成任务，提升学习效率。而前方提到的编程竞赛“MineRL”（读音同“mineral”）就鼓舞选手使用这种技术教AI打游戏。

这一竞赛的组委会负责人、来自卡内基·梅隆大学的实际深度学习博士生William Guss暗示，仅靠强化学习是无法在这一竞赛中获胜的。通过随机的方式，AI也许可以在800万步中成功砍倒一两棵树，但这仅仅是制作铁镐的先决条件之一，有铁镐才干开采钻石。Guss说：“探究真的很难很难，而模拟学习为你提供了杰出的环境先验信息。”

竞赛由卡内基·梅隆大学和微软共同帮助。Guss和同事但愿，除在游戏中寻到宝石，竞赛还能发作更大的影响，比如激起选手拓宽模拟学习的界限。这样的研究最终能让研究人员练习出更好的AI，除能在布满不确定性的复杂环境中游刃有余，它们还能在多种环境中与人类更好地交互。谷歌DeepMind的研究真理家、竞赛参谋委员会成员Oriol Vinyals暗示，模拟学习是学习和展开智能技术的中心，“它让我们无需从头开始逐步迭代学习就可以快速把握一项任务技艺。”

学打游戏

竞赛组织者认为《我的世界》是一个难得的虚拟练习平台，玩家在游戏中暗示出多量智能行为。特殊是在很受欢迎的保存形式中，玩家需要与怪兽作斗争、寻食或种植食物其实不时搜集各种能建筑房子和东西的材料。新玩家需要学习游戏中的物理定律，和如何将材料转换为资源和东西的窍门。这款游戏因为能让玩家开释无限创造力而风行全球，比如用块状构造搭建虚拟的埃菲尔铁塔、迪士尼乐园、星球大战中的死星堑道疾飞、乃至是一台可以在游戏里任务的计算机。

在MineRL竞赛中，AI选手需要从《我的世界》中的一个随机位置开始，在没有任何东西的状况下，完成一系列任务，寻到钻石。来源：William H Guss/MineRL

为了构建用于竞赛的练习数据，MineRL的组织者开设了一个《我的世界》的游戏公服，并延聘玩家完成一系列为特定任务设计的挑战，例如制作不同的东西等。最终他们搜集了在给定情境下的6000万个举措样本，并为参赛团队提供了约1000小时的行为记载。这些记载是今朝为止第一批也是最大一个专一于模拟学习研究的数据集。

竞赛的主要目的是应用模拟实现“自举”学习，让AI不再需要消耗多量时间来探究环境，挖掘契合第一性情理的可以性，而是应用人类已有的常识。来自加州大学伯克利分校的博士生Rohin Shah暗示：“据我所知，今朝没有哪一个AI竞赛是专一于解决这个标题问题的。”

在云计算和海量数据的促进下，AI研究范畴的最新论文主要以强化学习的效果为主。但模拟学习的研究正在迎头赶上，局部原因在于，强化学习的试错办法存在限制。Katja Hofmann是微软剑桥研究院游戏智能研究组首席研究员（注：微软在2014年以25亿美元收购了《我的世界》的开发团队）和MineRL竞赛组委会成员，他认为这种试错的学习办法需要练习数据能掩盖不同环境交互的所有可以性和后果。但从复杂的现实世界中很难猎取这类数据，因为想要搜集所有蹩足决策的后果既不随便也不安全。

以主动驾驶汽车为例，通过强化学习练习它们可以需要几千或是几百万次的试错，才干让它们学会如何区分安全驾驶和危险驾驶。而模拟驾驶环境无法包孕所有在实在环境中可以以致导致车祸的情形。假如让主动驾驶汽车在大巷上不时冲突冲撞来学习如何开车，就太危险了。Hofmann说，除安全标题问题，强化学习还需要庞大的算力，这些资源动辄几百万美元。

与强化学习地道从零开始的学习办法不同，模拟学习选择了一条捷径，通过从示例中学习来取得有益优势。模拟学习已在强化学习之外寻到了本身的位置。最近几年来一些有名的AI演示都是从应用模拟学习构建的基础模型动身，结合这两种练习办法，像是2017年战胜人类围棋大师的AlphaGo算法。

固然，模拟学习也有局限性。一是它倾向于给出在练习样本中见过的解决方案，这种练习方式会让AI掉往灵敏性。Shah说：“一旦AI系统犯了一个毛病过错或偏离了人类的行为方式，它便会进进一个和演示完全不同的情境，由于没有见过这种状况，它会加倍苍茫、错上加错，引发十分不堪的后果。”

尽管如此，许多真理家依旧看好这项技术的潜力，特殊是用于为特定目的练习AI。微软雷蒙德研究院自适应系统和交互组首席研究员Debadeepta Dey暗示，“与强化学习相反，模拟学习的优点是，你可以为AI演示任务成功的样子，这确实能大幅加快学习措施。”

为了拿到钻石，由AI操作的玩家（或称智能体）在MineRL竞赛中需要把握的技艺有点多。首先，它们需要收集木头和铁来制作镐；然后制作火把照亮前路；它们可以还要带上一桶水来歼灭地下的岩浆。当这些都完备以后，AI才干开始在矿井和山洞里探究，同时在地下挖掘钻石矿。

竞赛要求参赛者使用不多于六个中央措置器和一个英伟达显卡的硬件平台练习他们的AI——这个配置是大少数检验测验室可以担负的。超越900支部队注册了第一轮竞赛，最终有39只部队提交了练习后的AI玩家。此中，练习后AI挖掘钻石才能最强的10支部队进进到了第二轮竞赛和决赛中。这些AI玩家有的学会了采铁矿石和制作高炉——制作铁镐的两个先提条件。但Guss不认为这些AI玩家可以寻到钻石——最少在第一届竞赛中是无法实现了。

尽管竞赛面向一个具体的任务，但它能激起人们应用《我的世界》举行更普及的AI研究。Shah暗示，“我对《我的世界》很感喜好，因为这个世界中的人有着不同的目的，《我的世界》不会让你只做‘一件事’，这也为AI学习人类的各种目的创造了很好的测试环境。”

即使游戏中的图形和规则无法从物理上反映出我们的实在世界，但在《我的世界》中高效练习AI的办法也可以让机械人等范畴的AI学习加快。德国达姆施塔特务业大学智能主动化系统检验测验室的研究人员Joni Pajarinen暗示，MineRL竞赛的后果可以在实在世界中发作影响，比如用于复杂部件的机械人装配和其他需要举行复杂行为学习的范畴。

最后一轮竞赛已完毕，Guss和其他的组织者将会审核提交后果，并寻出最凶猛的采钻小“人”。最终的后果已于12月6日在加拿大温哥华举行的神经信息措置系统（NeurIPS）会议上公布。

假如MineRL竞赛持续举行并成为一项传统，就可以作为追踪模拟学习开展的召开基准。Shah说：“MineRL鼓舞人们展开更多的模拟学习研究。虽然模拟学习对实在世界应用的主要性还有待验证，但我很有信心。”

原文以AI takes on popular Minecraft game in machine-learning contest为标题公布在2019年11月26日的新闻特写上

© nature

Nature|doi:10.1038/d41586-019-03630-0

本文由施普林格·天然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至知己圈，如需转载，请邮件 Chinapress@nature.com。未禁受权的翻译是侵权行为，版权方将保存查究法律义务的权利。