DQN网络如何在pytorch环境中根据自己的需求定义环境和动作？

输入（状态）：权重w和1-w

先验知识：概率矩阵P1和P2

输出：累计奖励Q和对应action的值，需要的输出是state w

动作：action1:w增加0.01。action2:w减少0.01

融合结果：w*P1+（1-w）*P2

环境：用类别标签y和融合结果根据交叉熵计算损失，如果交叉熵变大，rewar

d=-1，变小r=1，不变r=0