摘 要:提升多智能体训练效果一直是强化学习领域中的重点。以多智能体双延迟深度确定性策略梯度(MATD3)算法为基础,引入参数共享机制,进而提升训练效率。同时为缓解真实奖励与辅助奖励不一致的问题,借鉴课程学习(试读)...