基线算法QMIX的英文是什么
基线算法QMIX的英文是什么
基线算法QMIX的英文是什么
论文全称:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
算法全称:Q-decomposition Multi-agent Independent eXtension
Q-decomposition Multi-agent Independent eXtension
论文地址:https://arxiv.org/pdf/1803.11485.pdf
不知道你这个问题是否已经解决, 如果还没有解决的话:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
https://arxiv.org/pdf/1803.11485.pdf
和 VDN 类似,QMIX 也是一种基于价值的方法,可以以集中的端到端方式训练分散策略。QMIX 采用了一个网络,将联合动作值估计为每个智能体值的复杂非线性组合(VDN是线性加和),且仅基于局部观测。并且在结构上施加约束,使联合动作值函数与每个智能体动作值函数之间是单调的,保证集中策略和分散策略之间的一致性。