您所在的位置:主页 > 365bet登录地址 >

AI不会摧毁星际争霸2中只有0.2%的玩家

时间:2019-11-06 16:17 来源:365bet注册官网 作者:365bet网页版
培训是通过监督学习和强化学习来进行的。
最初,培训使用监督学习,并且材料来自暴雪发布的匿名人类玩家实时游戏。
有了这些信息,AlphaStar可以模仿StarCraft的操作来学习游戏的宏观和微观策略。
嵌入在游戏中的精英AI(原始代理人)可以被击败,相当于人类的黄金部分(95%)。
而这个早期的代理人就是强化学习的种子。
另外,创建了一个连续的联赛。这与准备特工竞技场相同。就像人类在梯子上竞争一样,内部主体也是竞争者。
通过从现有代理商创建新分支机构,越来越多的玩家将继续参加比赛。
新代理商从与竞争对手的竞争中学到东西。
这种新的培训形式加深了以前基于人群的增强方法,并创建了一个过程,使我们能够不断探索巨大的战略空间。
这种方法可确保特工在战略上强大的对手上表现良好,但要记住如何与实力较弱的早期对手打交道。
随着Smart League的不断发展,新的代理商诞生了,新的CounterStrategies出现了,以应对游戏的初始策略。
新代理实施的部分策略是对初始策略的略微改进。该代理的另一部分可以探索新策略,完全不同的构建顺序,完全不同的单元组合以及完全不同的微操作方法。
另外,每个特工都有不同的学习目标,以促进联盟中特工的多样性。例如,代理人的目的应设定为与任何对手作斗争,例如用来影响代理人偏好的内部动机。

相关文章