Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于PPOModel训练部分的代码 #13

Open
Thedatababbler opened this issue Sep 23, 2021 · 1 comment
Open

关于PPOModel训练部分的代码 #13

Thedatababbler opened this issue Sep 23, 2021 · 1 comment

Comments

@Thedatababbler
Copy link

您好,阅读了您的代码,让我对openAI Five的诸多实现细节更加深了一层理解,实在是非常感谢。但是我发现这个实现里面有两个模型,一个creep_block_model和一个PPOModel,然后我发现只有前者有一个learn的函数(但似乎未曾调用,是因为没有放出训练部分的代码吗?)。前者只学习预测move的角度,并没有学习对其他动作和target unit的预测(如果我理解没错的话),故我猜测PPOModel的训练代码才是核心的部分?但似乎没有找到使用PPOModel进行训练的部分代码,请问您考虑一起放出吗?谢谢

@Passerby
Copy link

是的,两个模型是分开训练的。多个动作的输出其实也没什么难度,就是几个 loss 累加起来。
分布式训练比较麻烦的数据传输和分布式能力,这部分代码涉及一些代码和公司内部运维设施相关,想分离比较困难,只有公司内部员工可以看。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants