QMIX的英文全称事什么

基线算法QMIX的英文是什么
基线算法QMIX的英文是什么
基线算法QMIX的英文是什么

论文全称:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
算法全称:Q-decomposition Multi-agent Independent eXtension

Q-decomposition Multi-agent Independent eXtension

  论文地址:https://arxiv.org/pdf/1803.11485.pdf

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 你可以参考下这篇文章:[经典论文分享]QMIX: 基于值学习的多智能体强化学习协作算法
  • 除此之外, 这篇博客: 【深度强化学习】多智能体算法汇总中的 2.3 QMIX 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

    QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

    https://arxiv.org/pdf/1803.11485.pdf

    和 VDN 类似,QMIX 也是一种基于价值的方法,可以以集中的端到端方式训练分散策略。QMIX 采用了一个网络,将联合动作值估计为每个智能体值的复杂非线性组合(VDN是线性加和),且仅基于局部观测。并且在结构上施加约束,使联合动作值函数与每个智能体动作值函数之间是单调的,保证集中策略和分散策略之间的一致性。

    在这里插入图片描述


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^