让我们从技术视角看一下新 AlphaStar 训练环境 。它包含三个代理池,每个都由监督学习进行初始化,随后用强化学习进行训练 。在训练过程中,这些代理会周期性地将自己的副本——被冻结在特定时间点的“玩家”——添加到联盟中 。主代理与所有这些过去的玩家以及他自己进行训练 。暴露者代理针对所有过去的玩家进行训练 。主要暴露者针对主代理人进行训练 。主要暴露者和联盟暴露者在向联盟添加新玩家时可以将其初始化为监督学习的代理 。
文章插图
文章插图
【AlphaZero使用教程 alpha操作系统】新AlphaStar是《星际争霸2》中第一个达到宗师级别的AI代理 。构建AlphaStar的经验可以应用于许多自学习场景,如自动驾驶汽车、数字助理或机器人,在这些场景中,代理需要在组合行动空间中做出决策 。AlphaStar表明,自学习人工智能系统可以应用于现实世界的许多复杂场景,并取得了令人瞩目的效果 。
推荐阅读
- append的用法 append函数的意思及用法
- cad实线变虚线快捷键 cad实线变虚线快捷键使用
- 摩托车电瓶充电器怎么使用? 摩托车电瓶充电器怎么使用的
- 净水器使用方法 卫莱仕净水器使用方法
- 小鹅花钱如何使用 小鹅花钱如何使用微信支付
- 公众号头条怎么发 头条号发文怎么使用功能
- 大连新机场最新进展 大连新机场什么时候正式使用
- OPPO FindX3Pro使用体验分享 oppo find x3pro好用吗
- 多肉摘心怎么摘 多肉摘心教程
- 一加手机6使用感受 一加6手机怎么样值得入手吗