Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination( 二 )


文章插图
表达式相当简单,就是把先群体中每一个策略加起来求个平均,得出一个平均策略,然后对这个平均策略求一个熵就可以了 。
训练最大熵群体

Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
回顾下之前说的最大熵强化学习目标表达式,就是在原来奖励的基础上,加上了一个熵作为附加奖励 。
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
相似的,本文最大熵种群的训练目标也是原来奖励的基础熵 , 加上我们的PE目标,也就是群平均策略的熵 。
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
流程很简单,每次抽一个个体出来与环境交互,根据目标函数,利用交互数据进行训练 。直至收敛 。
训练鲁棒性Agent想法很简单,每次选群里中配合最难的个体出来进行协作训练 。\(\pi^{(A)}\)就是我训练的最终策略,他的目标就是,不断提高与最垃圾的那个人配合的分数 。形象表达,在工作中最难配合的人都适应了,其他人还算啥 。
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
那么怎么计算具体的概率呢:我们希望概率正相关难度,也就是负相关合作收益,收益越高,约靠后 。
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
最终,我们选取了下面这个形式,将他们以难度排序 。例如3个分别排 1、2、3。那么第一个的概率就是1/(1+2+3) = 1/6、第二个就是2/6、第三个就是3/6 。就是这个意思 。
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

文章插图
总结我们希望在没有人类数据的情况下,通过自博弈能够实现与人类的合作 。因为不同的人行为不同,所以我们希望我们在训练之前,尽可能的先训练一大批行为不同的行为模型 , 然后再和这些模型进行训练,以提升和真人的配合的鲁棒性 。如果我们训练的这个群里,行为越丰富,那么越能代表大多数真人 , 那么我们最终训练的Agent越能配合形形色色的真人 。其中难点是群体训练 , 体现在两方面,个体多样性,个体之间的多样性,这个进化计算的思想是一致的!对于个体多样性,我们使用熵来进行控制 。对于俩俩之间的多样性,通过相对熵,也就是KL散度来控制 。这篇文章做的只是这样,更重要的是通过推到,找到了一个线性复杂度的替代目标,来代替原先\(n^2\)复杂度的目标 。
【Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination】

推荐阅读