在用强化学习解决多智能体博弈时,比如说用FFQ,假如某个时刻出现若干智能体退出博弈或者加入博弈,会导致之前的迭代计算失真,想问一下有没有比较好的解决办法?
楼主可以看下 Minimax-Q算法,如果分两组有leader就好了