关于PPOModel训练部分的代码 #13

Thedatababbler · 2021-09-23T10:25:51Z

您好，阅读了您的代码，让我对openAI Five的诸多实现细节更加深了一层理解，实在是非常感谢。但是我发现这个实现里面有两个模型，一个creep_block_model和一个PPOModel，然后我发现只有前者有一个learn的函数（但似乎未曾调用，是因为没有放出训练部分的代码吗？）。前者只学习预测move的角度，并没有学习对其他动作和target unit的预测（如果我理解没错的话），故我猜测PPOModel的训练代码才是核心的部分？但似乎没有找到使用PPOModel进行训练的部分代码，请问您考虑一起放出吗？谢谢

Passerby · 2021-09-26T06:57:45Z

是的，两个模型是分开训练的。多个动作的输出其实也没什么难度，就是几个 loss 累加起来。
分布式训练比较麻烦的数据传输和分布式能力，这部分代码涉及一些代码和公司内部运维设施相关，想分离比较困难，只有公司内部员工可以看。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于PPOModel训练部分的代码 #13

关于PPOModel训练部分的代码 #13

Thedatababbler commented Sep 23, 2021

Passerby commented Sep 26, 2021

关于PPOModel训练部分的代码 #13

关于PPOModel训练部分的代码 #13

Comments

Thedatababbler commented Sep 23, 2021

Passerby commented Sep 26, 2021