DQN网络如何在pytorch环境中根据自己的需求定义环境和动作?

输入(状态):权重w和1-w

先验知识:概率矩阵P1和P2

输出:新的权重w和1-w

动作:a1:w增加0.01。a2:w减少0.01

融合结果:w*P1+(1-w)*P2

环境:用类别标签y和融合结果根据交叉熵计算损失,如果交叉熵变大,rewar

d=-1,变小1,不变0

 

你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,目前超出我们的服务范围,暂时无法为您解答。

首次提问人员可免费体验一次有问必答服务。目前首次提问的问题服务范围为:编程语言、Java开发、python、数据库、前端开发 领域专业技术问题,为您提供问题的解决思路和指导。不提供源码代写、项目文档代写、论文代写、安装包资源发送或安装、软件使用指导等服务。

我们后续会持续优化,扩大我们的服务范围,为您带来更好地服务。