“血洗”人类的AI登上Nature,你输明白了吗?|赛先生
ninehua 2024-11-23 20:24 25 浏览
AlphaStar最初从观看人类玩耍中学习,接着它通过自我对抗来磨练各方面的技能。一两个星期的培训结束后,AlphaStar相当于玩了200年的《星际争霸2》。
撰文 | 李薇达
编辑 | 小赛
今年年初,由谷歌旗下的前沿人工智能企业DeepMind所研发的最新人工智能系统AlphaStar以两个5:0连续血洗《星际争霸2》德国职业选手TLO和波兰职业选手MaNa。在总共公开的11场对决中,人类仅在现场直播的一场表演赛中获胜。
今天,DeepMind的研究人员在Nature上发表了题为“Grandmaster level in StarCraft II using multi-agent reinforcement learning”的论文,详细介绍了这个把世界排名24和22的选手按在地上摩擦的系统是如何运作的。
AlphaStar和人类职业选手一样华丽的操作。蓝色为AlphaStar,红色为人类职业选手。(图源:sc2.blizzard.cn)
为何选择《星际争霸2》
长久以来,游戏都被认为是评估人工智能策略性思维的一个理想载体。近几年,AI已经掌握了一些超级复杂的游戏,比如围棋,《超级马里奥》、《雷神之锤3竞技场》,以及《DOTA2》。那么这次AI挑战的这款游戏有何特别之处?
《星际争霸2》(以下简称星际2)是一款发生在科幻世界里的即时战略类游戏。通常情况下,玩家从三个种族(人族、虫族、神族)中选择一个和另一个玩家进行1V1。这三个种族都有不同的单位和建筑以及不同的机制,在对战时需要不同的策略。玩家从一个小基地和几个工人单位开始,收集资源来建造更多的单位和建筑,侦察对手,研究新技术。如果一个玩家失去了所有的建筑,他就输了。
星际2由于它的复杂性一直没有受到AI的挑战,而恰恰又因为它“足够难”, DeepMind和星际2的游戏公司暴雪于2016年达成合作协议,通过这款游戏进行人工智能研究。
这款游戏究竟有多复杂?
首先,游戏理论方面,就像石头剪刀布一样,星际2没有一个最佳致胜策略。因此,人工智能在培训过程中需要不断探索和拓展策略相关知识。
其次,因为战争迷雾的存在,星际2不像围棋那样可以让玩家纵览整个游戏局面。关键信息被隐藏了, AI需要学会使用不完善的信息以及主动“侦查”来进行操作。
再次,游戏大约需要1个小时才能完成。在此期间,玩家不断采取行动来执行整体策略。初期采取的行动可能要到后期才会看到回报。在给定的时间内,人工智能需要通过大量的学习来做出长远来看的最优选择,而不仅仅局限于采取能够立即产生收益的行动。
另外,游戏是实时的。回合制游戏或者下棋都是对方完成一步玩家再进行下一步,而星际玩家必须随着游戏时间的推移不断执行动作。
最后,星际2的操作空间比19X19格的围棋要大得多得多。玩家可以从超过 300 种行为中做选择。在此之上,游戏中的行为是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 的小屏幕,大概也存在 1 亿种可能的行为。
以上这些挑战在许多战略游戏中也有,但都不是星际2这样的量级。所以为了完全掌握这个游戏,DeepMind需要不同的策略。
AlphaStar是如何学习的
根据DeepMind的论文,AlphaStar结合使用了新的技术与通用方法:比如神经内网络架构(neural network architectures)、模拟学习(imitation learning)、强化学习(reinforcement learning)和多智能体学习(multi-agent learning)等等。
总结起来就是:AlphaStar最初从观看人类玩耍中学习,接着它通过自我对抗来磨练各方面的技能。
AlphaStar通过观看玩家的游戏重播创建最初的迭代。暴雪刚开始时挑选出十万份匿名玩家的天梯比赛录像,以此来作为AI模仿训练的数据支撑。AI学习微观策略(比如有效控制单位)和宏观策略(比如搞经济运营和长期目标)。有了这些知识,即便是最困难的情况下,它也可以在95%的时间里击败游戏中的电脑对手。
不过研究人员会告诉你,这些都是小儿科,真正的工作才刚刚开始。
因为星际2不可能仅用一种策略就取胜,所以AlphaStar被分成数百个版本,每一个版本都有一个稍微不同的任务或策略。一种可能不惜一切代价要获得空中优势;另一种可能专注于技术升级;还有一种则像蓝军满广志一样,专门负责击败红军——那些已经成功的战略版本。这就是DeepMind所称的AlphaStar联赛。
这其实是一个神经网络训练程序,不同版本的AlphaStar会在一周内不停地跟彼此打来打去。
这是现代机器学习的核心。DeepMind为这些AI设置成功的参数,比如“赢得比赛”。然后这些AI就会各自做出决定来实现目标。最后获胜的AI继续进行比赛。DeepMind还通过设置某些条件,比如只能用某种种族或某个单位,来使训练更加深入。
最后DeepMind采用获胜最多的版本的特征。这个过程非常高效,因为AI 能够连续快速进行多场比赛。一两个星期的培训结束后,AlphaStar相当于玩了200年的《星际争霸2》。
DeepMind研究出了多款AlphaStar,这些AlphaStar最先通过研究上百万份《星际争霸2》玩家天梯录像来学习,接着再通过一种“AlphaStar联赛”的互相训练方式来学习。(图源:DeepMind)
AlphaStar会作弊吗
很多玩家对电脑控制的对手会持怀疑态度。为了解除疑虑,DeepMind对一些大家关注的问题给出了解释。
AlphaStar不是通过代码,也不是像人类那样通过移动“视角”来看这个游戏世界。它看到的是一个放大的地图,不过它也看不透被战争迷雾遮挡的部分。它看到的只有地图上有单位的部分。
AlphaStar和MaNa的第二场比赛。从AlphaStar的角度来看游戏:对神经网络的原始观察输入,神经网络的内部激活,agent考虑采取的一些的行动,例如点击哪里和建造什么,以及预测的结果。(图源:DeepMind)
人类每分钟能执行的动作数量(APM,又称“手速”)在生理上是有限的。为了公平起见,DeepMind限制了AlphaStar的“手速”:在每5秒的时间窗口中,AI最多只能执行22个非重复操作。
AlphaStar也没有超人的反应时间。DeepMind测试了它对事物的反应速度。从它观察到发生了什么,然后开始处理,到把它选择的内容传达给游戏的时间接近350毫秒,其实比人还慢。
游戏之外
虽然《星际争霸》只是一个游戏,但研究人员认为AlphaStar背后的技术可以用来解决许多问题:例如,它的神经网络结构能够根据不完全的信息来模拟非常长的可能动作序列——游戏通常持续一个小时,动作数万次。这可以用于天气预测、气候建模、语言理解等等。
另外, AlphaStar的一些训练方法有助于研发安全可靠的AI。比如它创新的联赛培训流程有利于提高人工智能系统的安全性和鲁棒性,特别是在能源等十分强调安全的领域。
DeepMind的研究人员表示,AlphaStar是第一个在《星际争霸》中达到顶级(grandmaster)水平的AI,也是第一个在不降低游戏难度的情况下,通过广泛的职业电子竞技达到人类玩家最高联赛等级的AI。
今年7月,暴雪公司宣布AlphaStar已匿名登陆欧服天梯。如果你想与这位大名鼎鼎的AlphaStar切磋一番,可前往欧服一战,为人族挽回点尊严。
参考资料
[1] https://www.nature.com/articles/s41586-019-1724-z
[2] https://liquipedia.net/starcraft2/2019_StarCraft_II_World_Championship_Series_Circuit/Standings
[3] http://sc2.blizzard.cn/articles/46042/78710
[4] https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii
[5] https://deepmind.com/blog/announcements/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment
[6] https://venturebeat.com/2019/01/24/alphastar-deepmind-beats-starcraft-pros/
https://news.blizzard.com/en-us/starcraft2/22933138/deepmind-research-on-ladder
相关推荐
- Origin将普通双Y轴柱状图升级为高级的3D倒影柱状图
-
双Y轴柱状图可以在同一张图表中展示两组具有不同量纲或数量级的数据。3D倒影柱状图是一种通过三维立体及倒影形式展示多个数据的图表,它通过柱子的高度和颜色来表示不同的数据类别和数值大小,以及通过不同平面展...
- Origin 2021 安装教程(附安装包下载)
-
Origin2021软件介绍广泛用于科研、工程和数据分析领域。它支持多种数据格式,包括Excel、ASCII、CSV等,可以方便地导入和分析各种类型的数据。Origin提供了丰富的数据分析工具,包括...
- VIVO origin os系统关闭广告教程(IQOO同理)
-
以下是我使用期间发现的,如有其他未发现的,欢迎大家评论补充。1设置-安全-更多安全设置-广告与隐私-个性化广告推荐关闭2设置-安全-更多安全设置-应用安装-应用推荐关闭3设置-系统管理-全局搜索-首页...
- Origin 2019 安装教程(附安装包下载)
-
Origin2019软件介绍广泛用于科研、工程和数据分析领域。它支持多种数据格式,包括Excel、ASCII、CSV等,可以方便地导入和分析各种类型的数据。Origin提供了丰富的数据分析工具,包括...
- vivo开启Origin OS3系统公测,并且公布首批至第四批可升级名单
-
vivo在本月初发布了OriginOS3.0操作系统,11月25日开启了首批机型的公测招募活动,首批公测机型包括vivo和iQOO,共计14款机型。首批公测招募的机型有:vivoxfold+、v...
- Origin将普通热图升级为高级的3D堆叠热图
-
3D堆叠热图是一种将多个热图组合在一起展示的图表可视化形式。每个热图代表一个数据集,通过比较不同数据集在不同条件(分组)下的颜色深浅变化来挖掘数据的大小差异或者相关性,能够直观地比较多组数据的相对强度...
- 最新最详细的Origin2021安装教程(保姆级)
-
直入正题,下面是Origin2021的安装过程安装包(复制到浏览器打开):%74%2E%63%6E/%41%36%4E%67%6D%54%74%4A安装步骤1、下载得到安装包后,请先解压!一定要先解压...
- vivo和iQOO抓紧更新 OriginOS5末班车 12月最后一波升级
-
进入12月底了,很多老旧机型也已经开始更新各家的新系统了,所以大家一定要注意查看系统版本更新。那么就拿今年国内销量第一的vivo和iQOO来说,OriginOS5都已经推出两个月了,根据之前公布的适...
- Origin将普通点线图转换为高级的3D堆叠点线图
-
点线图用于显示数据随时间或其他连续变量的变化趋势;点线图主要功能是展示数据随时间或连续变量的变化趋势,强调变化幅度,比较多个变量,描述周期性变化,识别异常值,并帮助分析趋势和预测未来趋势。当具有多组数...
- 蓝厂Origin OS 2.0首批适配机型曝光!有没有你的手机型号?
-
2020年11月18日蓝厂新系统OriginOS正式发布,并由后来的X60系列首发,新系统发布后网上就有言论:蓝厂补足了最后一块短板!发布至今大概已经有11月的时间了,网上也是褒贬不一,Origin...
- Origin2018软件安装包以及安装教程
-
安装步骤:1.鼠标右击软件压缩包,选择“解压到Origin2018”2.打开“Origin2018\Origin2018”文件夹,鼠标右击“setup”,选择“以管理员身份运行”3.软件正在准备...
- Origin这样操作,轻松绘制漂亮的雷达图
-
背景介绍雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常没有信息。雷达图也称为网络图、蜘蛛图、星图、星图、蜘蛛网、不规则多边形...
- 曝OriginOS新版本在“玩命打磨底层”流畅性比肩鸿蒙
-
日前,vivo正式官宣了2022年vivo开发者大会的举办时间:11月8日-11月9日。OriginOS全新版本届时将正式登场。时隔一年,这次全新OriginOS又将给我们带来什么样的全新体验? ...
- Dify工具使用全场景:1.0.1发布了,升级(功能篇·第8期)
-
上一篇:Dify工具使用全场景:API扩展(功能篇·第7期)一、Dify1.0.1版本升级特性Dify1.0.1版本在稳定性、性能和用户体验方面进行了全面升级,修复了之前版本中的一些已知问题,带来...
- vivo 新系统originOS 升级公测后增加手机内存
-
vivo新系统originOS,通过内存融合、进程优化、应用预载三种技术,一方面调用部分闲置的闪存空间,另一方面低系统对内存的占用,从而可以让原硬件内存增加2-3GB内存使用。vivo新系统ori...