输入(状态):权重w和1-w
先验知识:概率矩阵P1和P2
输出:累计奖励Q和对应action的值,需要的输出是state w
动作:action1:w增加0.01。action2:w减少0.01
融合结果:w*P1+(1-w)*P2
环境:用类别标签y和融合结果根据交叉熵计算损失,如果交叉熵变大,rewar
d=-1,变小r=1,不变r=0