DQN网络如何在pytorch环境中根据自己的需求定义环境和动作?

输入(状态):权重w和1-w

先验知识:概率矩阵P1和P2

输出:累计奖励Q和对应action的值,需要的输出是state w

动作:action1:w增加0.01。action2:w减少0.01

融合结果:w*P1+(1-w)*P2

环境:用类别标签y和融合结果根据交叉熵计算损失,如果交叉熵变大,rewar

d=-1,变小r=1,不变r=0