为什么策略梯度法在协作性MARL中如此高效?
2023-02-28
译者|朱先忠审校|孙淑娟在协作性多智能体强化学习(multi-agentreinforcementlearning:MARL)中,由于其基于策略的性质,通常认为策略梯度(policygradient:PG)方法的样本效率低于非策略的值分解(valuedecomposition:VD)方法。然而,最
2023-02-28