深圳幻海软件技术有限公司 欢迎您!

为什么策略梯度法在协作性MARL中如此高效?

2023-02-28

​译者|朱先忠审校|孙淑娟在协作性多智能体强化学习(multi-agentreinforcementlearning:MARL)中,由于其基于策略的性质,通常认为策略梯度(policygradient:PG)方法的样本效率低于非策略的值分解(valuedecomposition:VD)方法。然而,最
服务数据出错!