深圳幻海软件技术有限公司 欢迎您!

  • 为什么策略梯度法在协作性MARL中如此高效?

    ​译者|朱先忠审校|孙淑娟在协作性多智能体强化学习(multi-agentreinforcementlearning:MARL)中,由于其基于策略的性质,通常认为策略梯度(policygradient:PG)方法的样本效率低于非策略的值分解(valuedecomposition:VD)方法。然而,最

推荐阅读